Adatok
kikeriborsó
0 bejegyzést írt és 6 hozzászólása volt az általa látogatott blogokban.
A múlt heti cikkben (Gyártsunk mintából mintát) bemutattam azt a két elterjedt módszert a sokaság megbízhatósági tartományának meghatározására, amelyeket akkor tudunk alkalmazni, ha a hagyományos statisztikai tesztek valamilyen ok miatt nem alkalmazhatók. A cikk végén tettem egy olyan felelőtlen…..
kikeriborsó
2021.06.29 15:10:33
@glantos70:
A közhiedelemmel ellentétben a bootstrapról senki sem mondta matematikailag, hogy kis mintaelemszámok esetén használható. A bootstrap "müködése" azt jelenti, hogy egy statisztika bootstrap eloszlása nagy minta elemszám esetén (!!) konvergál a statisztika aszimptotikus (!!) eloszlásához.
A félreértés két okra vezethetö vissza: 1. bootstrappolni mindig lehet, mert az algortimus maga intuitív és egyszerü, 2. megmutatható, hogy sok közönséges statisztikai próba bootstrap eloszlása gyorsabban konvergál a statisztikai próba aszimptotikus eloszlásához, mint a központi határeloszlás tételen alapuló approximáció. De ez ilyen ordó (O) jelöléses "gyorsaság", tehát ugyanúgy nagy mintaelemszámról van szó.
Tehát a kérdésedre válaszolva: ha meg tudjuk mutatni a statisztika nagy mintaelemszám melletti eloszlását (pl. standard normál), és ez a statisztika nem túl "fura", akkor a bootstrap müködik, a fent leírt értelemben.
Minden más, föleg nem aszimptotikusan, csak remény.
A közhiedelemmel ellentétben a bootstrapról senki sem mondta matematikailag, hogy kis mintaelemszámok esetén használható. A bootstrap "müködése" azt jelenti, hogy egy statisztika bootstrap eloszlása nagy minta elemszám esetén (!!) konvergál a statisztika aszimptotikus (!!) eloszlásához.
A félreértés két okra vezethetö vissza: 1. bootstrappolni mindig lehet, mert az algortimus maga intuitív és egyszerü, 2. megmutatható, hogy sok közönséges statisztikai próba bootstrap eloszlása gyorsabban konvergál a statisztikai próba aszimptotikus eloszlásához, mint a központi határeloszlás tételen alapuló approximáció. De ez ilyen ordó (O) jelöléses "gyorsaság", tehát ugyanúgy nagy mintaelemszámról van szó.
Tehát a kérdésedre válaszolva: ha meg tudjuk mutatni a statisztika nagy mintaelemszám melletti eloszlását (pl. standard normál), és ez a statisztika nem túl "fura", akkor a bootstrap müködik, a fent leírt értelemben.
Minden más, föleg nem aszimptotikusan, csak remény.
A napokban a kollégáimnak próbáltam elmagyarázni az egymintás Z-próba lényegét és rájöttem, hogy nem igazán tudom értelmesen elmagyarázni, hogy mi is az a hipotézis vizsgálat és miért kell ezt pont úgy csinálni, ahogyan azt csináljuk. Állati régóta töröm ezen a fejem, de eddig még nem sikerült…..
kikeriborsó
2021.06.29 08:20:02
Statisztikai tesztelésnél elsöfajú hiba elkövetésének valószínüségét akarjuk kontroll alatt tartani. Ha kontrolláltuk az elsöfajú hibát, akkor azt a statisztikai próbát választjuk, ahol a másodfajú hiba elkövetésének valószínüsége a legkisebb. Tehát a "legerösebb" tesztet választjuk. Az alapvetö tesztek mind rendelkeznek ilyen optimalitási kritériumokkal, nem véletlenül ezeket használják. Bármilyen intuitívak is a tesztstatisztikák (t, Z, meg a többi), ezek mögött mélyebb "soul searching" volt a 20. század folyamán.
Általában meg lehet fordítani a hipotéziseket. Kivéve:
@glantos70: "Érdekes kérdés, hogy mi lenne akkor, hogy az egymintás Z-próba esetén az lenne a nullhipotézis, hogy a mintát NEM a megadott átlagú és szórású sokaságból vettük ki."
Az alfa szintü próbák eröfüggvénye a legtöbb leírható szituációban folytonos. 5%-os szintü tesztnél: Tehát a null hipotézis paraméter tartománya alatt 0.05 (vagy az alatt) halad az eröfüggvény. Mivel az alternatív egy pont, ahol elvileg nincs szakadás, így ott is max 0.05 a függvény. Nem tudunk olyan statisztikai próbát konstruálni, ami megfelelöen "erös": a másodfajú hiba elkövetésének valószínüsége marad 95%. Továbbá az (alfa szintü) statisztikai próbák között sem tudunk választani.
Ezért is egyszerü hipotézis a null hipotézis.
A világ statisztikusai általában nem ragaszkodnak olyan mereven ehhez az "elutasítjuk /elfogadjuk" dologhoz. Mert ez részben igazából filozófia / tudományelmélet. A mögötte rejlö statisztika pedig ennyi amit leírtam.
Általában meg lehet fordítani a hipotéziseket. Kivéve:
@glantos70: "Érdekes kérdés, hogy mi lenne akkor, hogy az egymintás Z-próba esetén az lenne a nullhipotézis, hogy a mintát NEM a megadott átlagú és szórású sokaságból vettük ki."
Az alfa szintü próbák eröfüggvénye a legtöbb leírható szituációban folytonos. 5%-os szintü tesztnél: Tehát a null hipotézis paraméter tartománya alatt 0.05 (vagy az alatt) halad az eröfüggvény. Mivel az alternatív egy pont, ahol elvileg nincs szakadás, így ott is max 0.05 a függvény. Nem tudunk olyan statisztikai próbát konstruálni, ami megfelelöen "erös": a másodfajú hiba elkövetésének valószínüsége marad 95%. Továbbá az (alfa szintü) statisztikai próbák között sem tudunk választani.
Ezért is egyszerü hipotézis a null hipotézis.
A világ statisztikusai általában nem ragaszkodnak olyan mereven ehhez az "elutasítjuk /elfogadjuk" dologhoz. Mert ez részben igazából filozófia / tudományelmélet. A mögötte rejlö statisztika pedig ennyi amit leírtam.
Milyen jó, ha időnként találkozunk olyan elnevezésekkel a statisztikában, amelyeknek látszólag még értelme is van! Sajnos az ajánlóban emlegetett jackknife és bootstrapping módszerek esetében csak akkor értjük meg a névadás logikáját, ha megismerjük a kitalálásuk történetét is...
Belépve többet láthatsz. Itt beléphetsz
Ez a mondat ezen a szinten nem igaz. Olyan teszt nem létezik a statisztikában, aminek ne lenne valamiféle eloszlása. Elvileg minden tesztre meg lehet állapítani a nullhipotézis alatti eloszlást. Ez néha bonyolult, ezért egyszerübb szimulálni. Vagy bootsrappolni.
Az igaz, hogy mindent lehet látatlanban bootstrappolni, de azt be kell bizonyítani, hogy az adott problémára a bootstrap mükodik-e.
Viszont a blog kontextusában a jó hír az, hogy az összes taglalt tesztre müködik a bootstrap. Söt, elméletileg pontosabban approximálja az (aszimptotikus) eloszlást mint a központi határeloszlás tétel. Így hát azért jó hogy van ilyen bejegyzés a blogoszférában.