kikeriborsóblog.hu user profil

Adatok

kikeriborsó

0 bejegyzést írt és 6 hozzászólása volt az általa látogatott blogokban.

2021.06.28. óta tag.

Admin Szerkesztő Tag Vendég

Statisztika egyszerűen Minta minta hátán... - Mennyire működik a bootstrapping? 2021.06.25 08:00:00

A múlt heti cikkben (Gyártsunk mintából mintát) bemutattam azt a két elterjedt módszert a sokaság megbízhatósági tartományának meghatározására, amelyeket akkor tudunk alkalmazni, ha a hagyományos statisztikai tesztek valamilyen ok miatt nem alkalmazhatók. A cikk végén tettem egy olyan felelőtlen…..

kikeriborsó 2021.06.29 08:00:03

" amelyeket akkor tudunk alkalmazni, ha a hagyományos statisztikai tesztek valamilyen ok miatt nem alkalmazhatók"

Ez a mondat ezen a szinten nem igaz. Olyan teszt nem létezik a statisztikában, aminek ne lenne valamiféle eloszlása. Elvileg minden tesztre meg lehet állapítani a nullhipotézis alatti eloszlást. Ez néha bonyolult, ezért egyszerübb szimulálni. Vagy bootsrappolni.

Az igaz, hogy mindent lehet látatlanban bootstrappolni, de azt be kell bizonyítani, hogy az adott problémára a bootstrap mükodik-e.

Viszont a blog kontextusában a jó hír az, hogy az összes taglalt tesztre müködik a bootstrap. Söt, elméletileg pontosabban approximálja az (aszimptotikus) eloszlást mint a központi határeloszlás tétel. Így hát azért jó hogy van ilyen bejegyzés a blogoszférában.

kikeriborsó 2021.06.29 15:10:33

@glantos70:

A közhiedelemmel ellentétben a bootstrapról senki sem mondta matematikailag, hogy kis mintaelemszámok esetén használható. A bootstrap "müködése" azt jelenti, hogy egy statisztika bootstrap eloszlása nagy minta elemszám esetén (!!) konvergál a statisztika aszimptotikus (!!) eloszlásához.

A félreértés két okra vezethetö vissza: 1. bootstrappolni mindig lehet, mert az algortimus maga intuitív és egyszerü, 2. megmutatható, hogy sok közönséges statisztikai próba bootstrap eloszlása gyorsabban konvergál a statisztikai próba aszimptotikus eloszlásához, mint a központi határeloszlás tételen alapuló approximáció. De ez ilyen ordó (O) jelöléses "gyorsaság", tehát ugyanúgy nagy mintaelemszámról van szó.

Tehát a kérdésedre válaszolva: ha meg tudjuk mutatni a statisztika nagy mintaelemszám melletti eloszlását (pl. standard normál), és ez a statisztika nem túl "fura", akkor a bootstrap müködik, a fent leírt értelemben.

Minden más, föleg nem aszimptotikusan, csak remény.

kikeriborsó 2021.06.30 07:13:49

Valóban nem kötözködni jöttem, csak hogy meg legyen a korrekt értelmezés is az Interneten.

Tehát tessék használni bootstrapot a teljesen átlagos tesztekre is. Ha a teszt standard normál aszimptotikusan, akkor a bootstrap müködik, és jobb mint a "táblázatból keresés". Ma ez már egy gimnáziumi osztályban is opció lenne, nyilván amikor az egész statisztika "kánon" alakult, akkor még nem volt opció, hogy bootstrap szimuláljunk.

A másik titok az az, hogy ez az egész elméleti eszmefuttatás nem függ a bootstrap replikációk számától, csak a mintaelemszámtól.

Egy kb. 500-as (de legyen 1000) bootstrap replikáció szám már alapvetöen jó, nem kell 100 000.

Statisztika egyszerűen Mi is az a hipotézis vizsgálat? 2021.03.19 08:00:00

A napokban a kollégáimnak próbáltam elmagyarázni az egymintás Z-próba lényegét és rájöttem, hogy nem igazán tudom értelmesen elmagyarázni, hogy mi is az a hipotézis vizsgálat és miért kell ezt pont úgy csinálni, ahogyan azt csináljuk. Állati régóta töröm ezen a fejem, de eddig még nem sikerült…..

kikeriborsó 2021.06.29 08:20:02

Statisztikai tesztelésnél elsöfajú hiba elkövetésének valószínüségét akarjuk kontroll alatt tartani. Ha kontrolláltuk az elsöfajú hibát, akkor azt a statisztikai próbát választjuk, ahol a másodfajú hiba elkövetésének valószínüsége a legkisebb. Tehát a "legerösebb" tesztet választjuk. Az alapvetö tesztek mind rendelkeznek ilyen optimalitási kritériumokkal, nem véletlenül ezeket használják. Bármilyen intuitívak is a tesztstatisztikák (t, Z, meg a többi), ezek mögött mélyebb "soul searching" volt a 20. század folyamán.

Általában meg lehet fordítani a hipotéziseket. Kivéve:

@glantos70: "Érdekes kérdés, hogy mi lenne akkor, hogy az egymintás Z-próba esetén az lenne a nullhipotézis, hogy a mintát NEM a megadott átlagú és szórású sokaságból vettük ki."

Az alfa szintü próbák eröfüggvénye a legtöbb leírható szituációban folytonos. 5%-os szintü tesztnél: Tehát a null hipotézis paraméter tartománya alatt 0.05 (vagy az alatt) halad az eröfüggvény. Mivel az alternatív egy pont, ahol elvileg nincs szakadás, így ott is max 0.05 a függvény. Nem tudunk olyan statisztikai próbát konstruálni, ami megfelelöen "erös": a másodfajú hiba elkövetésének valószínüsége marad 95%. Továbbá az (alfa szintü) statisztikai próbák között sem tudunk választani.

Ezért is egyszerü hipotézis a null hipotézis.

A világ statisztikusai általában nem ragaszkodnak olyan mereven ehhez az "elutasítjuk /elfogadjuk" dologhoz. Mert ez részben igazából filozófia / tudományelmélet. A mögötte rejlö statisztika pedig ennyi amit leírtam.

kikeriborsó 2021.06.29 15:10:36

Igen, Vita is azt mondja az idézeted alapján, hogy attól függöen érdemes megválasztani a nullhipotézist, hogy melyik esetben akarjuk kontrollálni az elsö fajú hibát. [Illetve melyik hiba "fontosabb" számunkra, akár pénzben kifejezhetö értékben.]

Ezt azzal egészíteném ki, hogy: ennek oka, hogy a populációs paramétert nem ismerjük. Egy alfa-szintü teszt (tehát amely az elsö fajú hiba elkövetését az általunk választott alfa szinten kontrollálja), a null hipotézis elvetése esetén a populációs paramétertöl függetlenül alfa valószínüséggel követi el az elsö fajú hibát [konstrukciójából kifolyólag]. Ha nem vetjük el a null hipotézist, de a populációs paraméter az alternatív hipotézis tartományába esik, akkor a másodfajú hiba elkövetésének valószínüsége viszont a populációs paraméter konkrét értékétöl függ. De ezt nem tudjuk kontrollálni, csak olyan tesztet tudunk választani, ami minden alternatívára a legerösebb (legkisebb másodfaju hiba valószínüség), de nem tudjuk, konkrétan mennyi az "erös".

Egy próba konzisztens, ha a próba ereje 1-hez tart nagy mintaelemszám esetén. Adott (de minden adott) alternatív paraméter mellett. Szerintem az egyszerübb tesztek mind konzisztensek.

Tesztelméleti gyorstalpaló.

Statisztika egyszerűen Gyártsunk mintából mintát! 2021.06.18 08:00:00

Milyen jó, ha időnként találkozunk olyan elnevezésekkel a statisztikában, amelyeknek látszólag még értelme is van! Sajnos az ajánlóban emlegetett jackknife és bootstrapping módszerek esetében csak akkor értjük meg a névadás logikáját, ha megismerjük a kitalálásuk történetét is...

kikeriborsó 2021.06.29 07:59:57

A motivációs bekezdés nettó baromság. A medián becslöfüggvénye normális eloszlású nagy mintaelemszám mellett (központi határeloszlás tétel). A variancia becslöfüggvénye pedig khí négyzet eloszlású, mert (nagy minta elemszám mellett) normális valószínüségi változók négyzetének összege. Központi határeloszlás.

A bootstrap nem "müködik", ha nincs "rendes" aszimptotikus eloszlása egy statisztikának (teszt, becslöfüggvény ...).

Belépve többet láthatsz. Itt beléphetsz

Adatlap

Aktivitás

Üzenetküldés

Kedvencek