Logo hu.boatexistence.com

Melyek a hiányzó értékek átlaggal való beszámításának hibái?

Tartalomjegyzék:

Melyek a hiányzó értékek átlaggal való beszámításának hibái?
Melyek a hiányzó értékek átlaggal való beszámításának hibái?

Videó: Melyek a hiányzó értékek átlaggal való beszámításának hibái?

Videó: Melyek a hiányzó értékek átlaggal való beszámításának hibái?
Videó: How To Handle Missing Values in Categorical Features 2024, Lehet
Anonim

Átlag imputáció eltorzítja a változók közötti kapcsolatokat De az átlagos imputáció is torzítja a többváltozós kapcsolatokat, és hatással van a statisztikákra, például a korrelációra. Például a PROC CORR következő hívása kiszámítja az Orig_Height változó és a Weight és Age változók közötti korrelációt.

Miért rossz ötlet a hiányzó adatok kezelésére szolgáló eszköz használata?

Átlag csökkenti az adatok szórását A matematikába mélyedve, a kisebb szórás a valószínűségi eloszlás szűkebb konfidenciaintervallumához vezet[3]. Ez nem vezet máshoz, mint elfogultság bevezetéséhez a modellünkben.

Miért jelentenek problémát a hiányzó értékek?

A hiányzó adatok különféle problémákat okoznak. Először is, az adatok hiánya csökkenti a statisztikai teljesítményt, ami annak valószínűségére utal, hogy a teszt elutasítja a nullhipotézist, ha az hamis. Másodszor, az elveszett adatok torzítást okozhatnak a paraméterek becslésében. Harmadszor, csökkentheti a minták reprezentativitását.

Miért rossz az átlagos beszámítás?

1. probléma: Az átlagos imputáció nem őrzi meg aváltozók közötti kapcsolatokat. Igaz, az átlag beszámítása megőrzi a megfigyelt adatok átlagát. Tehát ha az adatok teljesen véletlenszerűen hiányoznak, az átlag becslése torzítatlan marad.

Cserélje a hiányzó adatokat az átlaggal?

A kiugró adatpontok jelentős hatással lesznek az átlagra, ezért ilyen esetekben nem javasolt az átlagot használni a hiányzó értékek pótlására. Az átlagos értékek használata a hiányzó értékek pótlására nem biztos, hogy nagyszerű modellt hoz létre, és ezért kizárásra kerül.

Ajánlott: