Addendum bij "Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling"
Beste Tim en @_3s_,
Vooreerst dank voor jullie reacties op Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling. Ik wil er wel meteen aan toe voegen dat het niet mijn bedoeling was om Maarten op z'n plaats te zetten, zoals Tim schrijft. Wel in tegendeel, ik vind dat Maarten intuïtief een juiste redenering had opgezet. Wat betreft m'n opmerking over de Bayesiaanse redenering van Maarten, dat was eerder als grap/compliment bedoeld. Als @_3s_ zegt dat dit niet Baysesiaans is, geloof ik hem vrij, hij is daar meer specialist in dan ik.
Ik meen wel, dat in het specifieke geval van het TNS onderzoek, de journalisten gelijk hadden op te focussen op de daling die voor NVA werd geobserveerd.
Uiteraard ben ook ik ervan overtuigd dat je in het algemeen ook moet kijken naar de onzekerheid die er heerst rond het vergelijkingspunt. Het maakt inderdaad uit of dat komt van de verkiezingsuitslag (geen steekproeffout, zeer kleine meetfout) of van een andere opiniepeiling (grotere steekproeffout en meetfout). Een eenvoudig gedachtenexperiment maakt dit duidelijk: mocht het referentiepunt van 36 percent komen uit een peiling met een steekproefgrootte van pakweg 5, dan zou het voor iedereen duidelijk zijn, ook voor journalisten, dat je met dat ijkpunt voorzichtig moet zijn. In het geval van het TNS onderzoek ligt de steekproef steeds rond de 1000. Het is dus redelijk van de journalist om aan te nemen dat ook de betrouwbaarheidsintervallen van eenzelfde grote orde zijn. Zelfs dan ben ik het nog steeds met Maarten eens dat je naar beide betrouwbaarheidsintervallen moet kijken. Daar waar ik het niet meer met hem eens ben is in de suggestie dat er geen overlap mag zijn in de twee betrouwbaarheidsintervallen alvorens we mogen spreken van een signficant verschil. Het is inderdaad zo dat als er geen overlap is tussen de twee betrouwbaarheidsintervallen, de twee parameters significant van elkaar verschillen. Het omgekeerde is echter niet altijd waar (zie bv. http://www.cscu.cornell.edu/news/statnews/stnews73.pdf en de referenties daarin).
Als je niet rechtstreeks de (overlap) van de betrouwbaarheidsintervallen mag gebruiken, welk alternatief gebruik je dan? Er zijn allicht meerdere mogelijkheden, maar met de gegevens die we als buitenstaanders hebben, heb ik voor het TNS onderzoek een gewone chi-kwadraat test gedaan op basis van de gegevens die ik kende (of redelijkerwijze kan inschatten). In mijn ogen verschilt deze benadering weinig van wat je zou doen mocht je willen nagaan of de aanhang voor NVA bij mannen anders ligt dan bij vrouwen. Ik zal bij TNS vragen of ze de oorspronkelijke gegevens kunnen vrijmaken voor @_3s_ zodat die de door hem voorgestelde benadering kan uitproberen. Ik moet er wel aan toevoegen dat ik vermoed dat dit niet zal lukken.
Op vraag van Tim geef ik hier de details: Ik weet dat in de nieuwe peiling het percentage voor NVA 32.1 was met n=1084. Voor de vorige peiling was het percentage 36.3. De steekproefgrootte heb ik niet onmiddellijk teruggevonden, maar ik weet dat dat voor de TNS/DS/VRT onderzoeken altijd iets boven de 1000 uitkomt. Ik heb dan ook n=1000 genomen als schatting. Dit levert me een kruistabel op met peiling 1 versus peiling 2 in de rijen en NVA versus NIET-NVA in de kolommen. De (geschatte) absolute waarden zijn dan respectievelijk 363.0, 637.0, 347.964 en 736.036. In mijn ogen kan ik in dit geval het verschil testen door de hypothese van onafhankelijkheid te nemen, wat verwachte frequenties oplevert van respectievelijk 341.2, 658.8, 369.8 en 714,2. De Chi-kwadraat wordt dan 1.39898+0.724398+1.290573+0.668264 = 4.082217 bij (2-1)(2-1)=1 vrijheidsgraad, wat significant is.
Volledigheidshalve wil ik eraan toevoegen dat iVOX (een marktonderzoeksbureau waar ik een tijdje voor gewerkt heb) in hun basisrapportage voor klanten significante verschillen tussen subgroepen aangeeft, zodat de klanten dit zelf niet moeten berekenen (en, voor je het vraagt, ja, iVOX gebruikt de Bonferroni-correctie om het probleem van kanskapitalisatie tegen te gaan ;-). De richtlijnen van FEBELMAR voor politiek onderzoek gaan zo ver niet. Daar wordt wel aangedrongen op de de rapportering van betrouwbaarheidsintervallen. Vorig jaar was ik uitgenodigd om te spreken op een bijeenkomst van de Vereniging Voor Journalisten over de methodologie van opiniepeilingen. Om te beginnen was er weinig interesse van journalisten en was de vraag vooral: geef ons eenvoudige regels die we in de praktijk kunnen hanteren. (Overigens, één van de aanwezige journalisten was @JanJagers die naar aanleiding van deze bijeenkomst een aardig stuk over methodologie van opiniepeilingen schreef in Knack).
Wat voor mij in deze discussie van belang is het volgende:
Vaak wordt in de verslaggeving over opiniepeilingen een loopje genomen met de methodologische en statistische regels. Dat is te betreuren, maar journalisten zijn nu eenmaal zelden statistici. Het is dus kwestie van de journalisten duidelijke en eenvoudige richtlijnen te geven. Hen vragen zelf een statistische toets uit te werken is volgens mij niet redelijk. Veel verder dan het belang van betrouwbaarheidsintervallen onderstrepen zal je niet geraken.
Als er dan een krant, zoals De Standaard, zich focust op een significant verschil (ook al zijn de betrouwbaarheidsontervallen formeel gesproken onvoldoende om tot dat besluit te komen), dan vind ik dat goed. Kortom, zoals mijn grootmoeder het zou zeggen: beter één betrouwbaarheidsinterval in de hand dan 10 Chi-kwadraat-toetsen in de lucht ;-)
Als statistici en methodologen moeten we, denk ik, telkens een journalist een grove fout maakt, zoals het inzoomen op evident niet significante resultaten, dit aan de kaak stellen. Echter, wanneer journalisten de moeite nemen om toch rekening te houden met elementaire noties zoals betrouwbaarheidsintervallen, dan moeten we dat toejuichen.
Oprechte groeten,
Istvan
Vooreerst dank voor jullie reacties op Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling. Ik wil er wel meteen aan toe voegen dat het niet mijn bedoeling was om Maarten op z'n plaats te zetten, zoals Tim schrijft. Wel in tegendeel, ik vind dat Maarten intuïtief een juiste redenering had opgezet. Wat betreft m'n opmerking over de Bayesiaanse redenering van Maarten, dat was eerder als grap/compliment bedoeld. Als @_3s_ zegt dat dit niet Baysesiaans is, geloof ik hem vrij, hij is daar meer specialist in dan ik.
Ik meen wel, dat in het specifieke geval van het TNS onderzoek, de journalisten gelijk hadden op te focussen op de daling die voor NVA werd geobserveerd.
Uiteraard ben ook ik ervan overtuigd dat je in het algemeen ook moet kijken naar de onzekerheid die er heerst rond het vergelijkingspunt. Het maakt inderdaad uit of dat komt van de verkiezingsuitslag (geen steekproeffout, zeer kleine meetfout) of van een andere opiniepeiling (grotere steekproeffout en meetfout). Een eenvoudig gedachtenexperiment maakt dit duidelijk: mocht het referentiepunt van 36 percent komen uit een peiling met een steekproefgrootte van pakweg 5, dan zou het voor iedereen duidelijk zijn, ook voor journalisten, dat je met dat ijkpunt voorzichtig moet zijn. In het geval van het TNS onderzoek ligt de steekproef steeds rond de 1000. Het is dus redelijk van de journalist om aan te nemen dat ook de betrouwbaarheidsintervallen van eenzelfde grote orde zijn. Zelfs dan ben ik het nog steeds met Maarten eens dat je naar beide betrouwbaarheidsintervallen moet kijken. Daar waar ik het niet meer met hem eens ben is in de suggestie dat er geen overlap mag zijn in de twee betrouwbaarheidsintervallen alvorens we mogen spreken van een signficant verschil. Het is inderdaad zo dat als er geen overlap is tussen de twee betrouwbaarheidsintervallen, de twee parameters significant van elkaar verschillen. Het omgekeerde is echter niet altijd waar (zie bv. http://www.cscu.cornell.edu/news/statnews/stnews73.pdf en de referenties daarin).
Als je niet rechtstreeks de (overlap) van de betrouwbaarheidsintervallen mag gebruiken, welk alternatief gebruik je dan? Er zijn allicht meerdere mogelijkheden, maar met de gegevens die we als buitenstaanders hebben, heb ik voor het TNS onderzoek een gewone chi-kwadraat test gedaan op basis van de gegevens die ik kende (of redelijkerwijze kan inschatten). In mijn ogen verschilt deze benadering weinig van wat je zou doen mocht je willen nagaan of de aanhang voor NVA bij mannen anders ligt dan bij vrouwen. Ik zal bij TNS vragen of ze de oorspronkelijke gegevens kunnen vrijmaken voor @_3s_ zodat die de door hem voorgestelde benadering kan uitproberen. Ik moet er wel aan toevoegen dat ik vermoed dat dit niet zal lukken.
Op vraag van Tim geef ik hier de details: Ik weet dat in de nieuwe peiling het percentage voor NVA 32.1 was met n=1084. Voor de vorige peiling was het percentage 36.3. De steekproefgrootte heb ik niet onmiddellijk teruggevonden, maar ik weet dat dat voor de TNS/DS/VRT onderzoeken altijd iets boven de 1000 uitkomt. Ik heb dan ook n=1000 genomen als schatting. Dit levert me een kruistabel op met peiling 1 versus peiling 2 in de rijen en NVA versus NIET-NVA in de kolommen. De (geschatte) absolute waarden zijn dan respectievelijk 363.0, 637.0, 347.964 en 736.036. In mijn ogen kan ik in dit geval het verschil testen door de hypothese van onafhankelijkheid te nemen, wat verwachte frequenties oplevert van respectievelijk 341.2, 658.8, 369.8 en 714,2. De Chi-kwadraat wordt dan 1.39898+0.724398+1.290573+0.668264 = 4.082217 bij (2-1)(2-1)=1 vrijheidsgraad, wat significant is.
Volledigheidshalve wil ik eraan toevoegen dat iVOX (een marktonderzoeksbureau waar ik een tijdje voor gewerkt heb) in hun basisrapportage voor klanten significante verschillen tussen subgroepen aangeeft, zodat de klanten dit zelf niet moeten berekenen (en, voor je het vraagt, ja, iVOX gebruikt de Bonferroni-correctie om het probleem van kanskapitalisatie tegen te gaan ;-). De richtlijnen van FEBELMAR voor politiek onderzoek gaan zo ver niet. Daar wordt wel aangedrongen op de de rapportering van betrouwbaarheidsintervallen. Vorig jaar was ik uitgenodigd om te spreken op een bijeenkomst van de Vereniging Voor Journalisten over de methodologie van opiniepeilingen. Om te beginnen was er weinig interesse van journalisten en was de vraag vooral: geef ons eenvoudige regels die we in de praktijk kunnen hanteren. (Overigens, één van de aanwezige journalisten was @JanJagers die naar aanleiding van deze bijeenkomst een aardig stuk over methodologie van opiniepeilingen schreef in Knack).
Wat voor mij in deze discussie van belang is het volgende:
Vaak wordt in de verslaggeving over opiniepeilingen een loopje genomen met de methodologische en statistische regels. Dat is te betreuren, maar journalisten zijn nu eenmaal zelden statistici. Het is dus kwestie van de journalisten duidelijke en eenvoudige richtlijnen te geven. Hen vragen zelf een statistische toets uit te werken is volgens mij niet redelijk. Veel verder dan het belang van betrouwbaarheidsintervallen onderstrepen zal je niet geraken.
Als er dan een krant, zoals De Standaard, zich focust op een significant verschil (ook al zijn de betrouwbaarheidsontervallen formeel gesproken onvoldoende om tot dat besluit te komen), dan vind ik dat goed. Kortom, zoals mijn grootmoeder het zou zeggen: beter één betrouwbaarheidsinterval in de hand dan 10 Chi-kwadraat-toetsen in de lucht ;-)
Als statistici en methodologen moeten we, denk ik, telkens een journalist een grove fout maakt, zoals het inzoomen op evident niet significante resultaten, dit aan de kaak stellen. Echter, wanneer journalisten de moeite nemen om toch rekening te houden met elementaire noties zoals betrouwbaarheidsintervallen, dan moeten we dat toejuichen.
Oprechte groeten,
Istvan
Comments
Post a Comment