Könyves Tóth Előd: Megbízhatóak-e a szignifikanciák?

2012. dec 18.



BootStrapping és Monte-Carlo szimuláció a prediktív modellek megbízhatóságának vizsgálatára, illetve a két módszer közti alapvető különbség érzékeltetése

A cikk apropója a nemrég megjelent IBM SPSS Statistics 21 egyik újdonsága, a Base modulba épített Monte-Carlo szimuláció. A BootStrapping külön modulként már a 18. változattól elérhető. A cikkben említett példa pedig az SPSS Help „Diabetes” szimulációs esettanulmányának átdolgozása.

Statisztikai számítások esetén a kapott statisztikai mutatók (százalék, átlag, szórás, korreláció, regressziós és fontossági együtthatók stb.) megbízhatósági értékelésének alapja hagyományosan a szignifikancia érték és a konfidencia intervallum. Mégis felmerül a kérdés, mennyire változnának meg a statisztikák és megbízhatósági jellemzőik, ha az adatok kicsit változnának, ha az adatoknak csak egy véletlenszerű részén számítódnának, vagy az adatokat véletlenszerűen szimulálnánk ‒ persze az eredeti eloszlások és adatkapcsolatok figyelembevételével. Különösen fontos ez a szempont, ha az adatok nem reprezentatív mintát képviselnek, hanem például historikus adatok, amelyek alapját képezhetik jövőbeli kockázati elemzéseknek.
Példaként tekintsünk egy kockázatelemzési helyzetet, amely egy egészségügyi biztosítócég cukorbetegséggel kapcsolatos várható kiadásainak becsléséről szól. Vannak historikus adatok – életkor, vércukorszint, beteg keresete, mint jósló és a kezelésre fordított kiadás, mint célváltozó – melyek feltételezhetően reprezentálják a célpopulációt.

Első lépésben az elemzők valamely regressziós modellel becsülik a kezelésre fordított kiadást. A jósló együtthatók és hozzájuk tartozó megbízhatósági intervallumok reálisak, de az elemzők bizonytalanok a modell stabilitásában.
Ezért a második lépésben vizsgálják, vajon a minta egy véletlen részén (a tanuló mintán) számítva a modellt, hasonló eredmények adódnak-e, és jól alkalmazható-e a modell a figyelembe nem vett adatokon is (a teszt mintán).
Harmadik lépésben a modell konkrét almintáktól való függetlenségét tesztelik a Bootstrapping eljárással. A Bootstrapping az eredeti mintából visszatevéses mintavétellel még sok (több ezer) mintát generál, és azokon alkalmazva a modellt, minden számított statisztika (itt pl.: a jósló együtthatók és a jósolt kiadás) átlaga és konfidencia tartománya számítódik.
Példánkban mind az első három lépésbeli eredmények szignifikánsak, megerősítik a modell érvényességét és stabilitását, mégis az elemzők bizonytalanok, vajon a historikus adatminta jósló változói eléggé lefedik-e a lehetséges értékkombinációkat. Ekkor jöhet egy negyedik módszer, a Monte-Carlo szimuláció.

Ez a szimulációs eljárás a jósló változók eloszlásait és interkorrelációit is figyelembe vevő véletlen adatok generálását – általában sok ezer új esetet – és rajtuk a modell alkalmazását jelenti. Az eljárás képes fogadni az első lépésben keletkezett és onnan xml fájlba exportált modellspecifikációt. Amint az ábrákon látszik, jósló változónként meg lehet határozni a megfelelő eloszlások paramétereit, sőt az SPSS ezt automatikusan is megteszi a historikus adatok alapján, illetve javasol különböző eloszlásokat megfelelő illeszkedési statisztikákkal kiegészítve. A jobb oldali ábrán pedig a már szimulált adatokon modellezett kiadás eloszlása látható, ahonnan a kockázatelemzők láthatják a várható költségek alakulását.

Összefoglalva tehát a Bootstrapping eljárás a létező esetek kombinációiból alkot új mintákat, míg a Monte-Carlo szimuláció új változókombinációkat alkot véletlen generált értékekkel adott eloszlások paraméterei és interkorrelációi alapján, akár historikus adatokból származtatott paraméterek alapján.
Remélhetőleg az itt csak nagyon röviden vázolt lehetőségek felkeltik az elemzők érdeklődését az SPSS újabb lehetőségeinek kipróbálására és az eljárások alaposabb megismerésére.

Könyves Tóth Előd

 Programtervező matematikus, pszichológus. 5 éve az Clementine Consultingnak dolgozik, az IBM SPSS Statistics szakértőjeként. Már 33 éve fejleszti, alkalmazza és oktatja a matematikai statisztika számítógépes eszközeit. Főbb korábbi munkahelyei a társadalomkutatások (MTA Pszichológiai Kutatóintézete), később az üzleti világ területén voltak, főleg piackutató intézetek (ACNielsen, Millward Brown). Oktatási tevékenységében kezdettől fogva nagy szerepet játszik az a törekvés, hogy a nem-matematikusok érdeklődését is felkeltse.





Posted by NRC Marketingkutató in : Módszer,

Kapcsolat

NRC Kft. 1034 Budapest, Kenyeres utca 28. www.nrc.hu

piackutatas@nrc.hu
Facebook Twitter

Küldjön üzenetet nekünk!