A k-Means algoritmus nem alkalmazható kategorikus adatokra, mivel a kategorikus változók diszkrétek, és nincs természetes eredetük. Tehát nem értelmes az euklideszi távolság kiszámítása olyan esetekben, mint a tér.
Használhatunk klaszterezést kategorikus adatokhoz?
A kategorikus adatok numerikussá lettek konvertálva rangérték hozzárendelésével. Egy kategorikus adatkészlet numerikus adatkészletekké klaszterezhető. Megfigyelhető, hogy ennek a logikának a megvalósítása, a k-átlag ugyanazt a teljesítményt adja, mint a numerikus adatkészleteknél.
Használható az átlag kategorikus változókhoz?
Nincs mód arra, hogy átlagot találjunk ezekből az adatokból, mert nincs "átlagos" szemszín. Az arányokat megtalálod, de az átlagot nem. Remélem ez segít!
Mit kell használni, ha az adatok kategorikusak?
A kategorikus adatok elemzése mód és medián eloszlások használatával történik, ahol a névleges adatokat a móddal, míg az ordinális adatokat mindkettőt használja. Egyes esetekben az ordinális adatok egyváltozós statisztikák, kétváltozós statisztikák, regressziós alkalmazások, lineáris trendek és osztályozási módszerek segítségével is elemezhetők.
Mi az a klaszterezés kategorikus attribútumokkal?
A kategorikus adatcsoportosítás arra az esetre vonatkozik, amikor az adatobjektumok kategorikus attribútumokon keresztül vannak definiálva … Vagyis nincs egyetlen rendezési vagy inherens távolságfüggvény a kategorikus értékekhez, és nincs szemantikailag értelmes leképezés kategorikus értékekről numerikus értékekre.