Csak annak a statisztikának hihetünk, amit…

2022.06.16.
Csak annak a statisztikának hihetünk, amit…
Hányszor kell elemezni a statisztikai adatokat, hogy tudományosan megalapozottnak tekinthessük a következtetéseket? Aczél Balázs és munkatársainak véleménycikkét a Nature közölte.

Bár nem igaz, hogy maga Churchill mondta volna, mégis szállóigeként terjed a szólás: „Csak annak a statisztikának hiszek, amit magam hamisítottam.” Noha a tudományos kutatásnak aligha célja a hamisítás, mégis túlontúl csábító lehet olyan elemzési módszertant választani, ami alkalmasnak tűnik a kutatói hipotézis igazolására. Ezért Aczél Balázs és szerzőtársai azt szorgalmazzák, hogy

csak annak a statisztikai elemzésnek higgyünk, amit több kutatócsoport többféle módszerrel igazolt.

Eric-Jan Wagenmakers, Alexandra Sarafoglou és Aczél Balázs, a kutatásmódszertan és a metatudományos megközelítés szakértőinek figyelmét egy, a COVID-19 fertőzések reprodukciós rátájával kapcsolatos tudományos előrejelzések körüli anomália irányította rá a problémára. Arra lettek figyelmesek, hogy az elvileg jól megalapozott statisztikai módszerekkel dolgozó adatelemzők egymástól függetlenül működő csoportjai

a koronavírussal kapcsolatban rendelkezésre álló adatokból időnként homlokegyenest ellentétes következtetésre jutottak.

Ezek az elemzések azt a nem mellékes kérdést vizsgálták, hogy a következő időszakban vajon visszaszorulóban vagy terjedőben lesz-e a járvány. Valamennyien a vírus ún. reprodukciós rátáját (vagyis az R-t) igyekeztek kiszámolni, ám míg egyes csoportok 1 alatti értéket, azaz a fertőzésszám csökkenését prognosztizálták, mások 1 fölötti értéket, azaz a vírus gyorsuló terjedését jósolták – holott a szerzők álláspontja szerint szinte azonos adatokból elvileg nem juthattak volna merőben eltérő következtetésekre a járványügyi szakértők.

Bár a tudományosság egyik fontos kritériuma ma is a cáfolhatóság, vagyis minden elemzés, minden publikáció nyomán születhet egy másik, amelyben konkurens kutatói teamek a vizsgálatokat és az elemzéseket megismételve akár meg is cáfolhatják elődeik következtetéseit, Aczél Balázs és szerzőtársai szerint ez az utólagos kontroll nem mindig elegendő. A cáfolat ugyanis gyakorta túl későn érkezik, és az eredeti eredményhez képest gyakran kisebb nyilvánosságot kap, vagyis akár

téves következtetések is hosszú ideig tarthatják magukat a tudományos közvélemény köreiben.

Ezért a szerzők azt szorgalmazzák, hogy a tudományos folyóiratok szerkesztői már a cikkek leadásakor követeljék meg a számítások többféle módszerrel történő ellenőrzését, melyet egymástól független elemzői csapatoknak kellene elvégezniük.

A felvetéssel szemben sok ismert bírálat van forgalomban, hiszen a többszörös adatelemzés jelentősen kitolja a publikálás időpontját és megdrágítja a kutatási projekteket is, miközben egyáltalán nem biztos, hogy megéri a ráfordított pénzt és energiát, hiszen sok esetben a kutatók modelljei és számításai helytállónak bizonyulnak, akárhányszor futtatják is le az elemzéseket. Ugyanakkor ma is több, nagy számosságú adattal dolgozó szakterületen, így a nagyenergiás részecskefizikában vagy a klímamodelleknél is bevett gyakorlatnak számít a statisztikai modellek tudatos tesztelése, az egyes változók szerepének alapos vizsgálata. Ezek a tudományterületek tehát példaként szolgálhatnak további, hagyományaikat tekintve kevésbé adatorientált szakágak számára is.

A szerzők amellett érvelnek, hogy a többelemzős megközelítés szisztematikus bevezetése hozzájárulna a tudomány iránti társadalmi bizalom erősödéséhez, különösen azokban az esetekben, amikor a kutatási eredmények közvetlen hatással vannak a társadalomra. Enélkül ugyanis fennáll a veszélye annak, hogy a „Mátrix” című film főszereplőjének sorsára jutva

úgy járunk, mint Neo:

a kék pirulát választjuk, hogy azt hihessük, amit hinni szeretnénk, s ne kelljen szembesülnünk a valósággal.

A teljes cikk itt olvasható:

One statistical analysis must not rule them all
Nature, 19 May 2022.