Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling
Ik geef geregeld commentaar op de verslaggeving over peilingen en aanverwante onderwerpen op deze blog. Bij de recente DS/VRT peiling heb ik dat niet gedaan, omdat ik al bij al vond dat de verslaggeving niet zo slecht was. Ik heb niet alle artikels gelezen, maar in het algemeen staarde m'n zich niet blind op kleine verschillen en werd de betrekkelijkheid van de resultaten vrij goed onderstreept. Tussen haakjes, Maarten Lambrechts (@maartenzam) maakte wel een aardig overzicht van de verschillende visuele weergaven van de peilingsresultaten.
Ik was dus niet van plan om te regearen, maar, op populair verzoek (nu ja, enkel @janvandenbulck) toch enkele bedenkingen, met name over een twitter conversatie tussen @OmbudsDS en @maartencorten. Het uitgangspunt was de bijdrage van @OmbudsDS waarin hij schreef dat de berichtgeving over de peiling in zijn krant over het algemeen goed was. Eén van de argumenten was dat de berichtgeving zich spitste op de significante daling voor de NVA en niet op de kleinere verschillen. @maartencorten reageerde daarop met de volgende tweet:
Op het eerste zicht lijkt de redering van @maartencorten steek te houden, immers beide cijfers komen van twee (onafhankelijke) steekproeven waarbij je voor elk een betrouwbaarheidsinterval kan berekenen. De redenering zou dan zijn dat men enkel van een significante verandering zou kunnen spreken indien de twee betrouwbaarheidsintervallen elkaar niet overlappen.
Het blijkt verrassend moeilijk te zijn om uit te leggen waarom de redenering van @maartencorten niet helemaal klopt. Ik zal toch enkele pogingen doen.
De meest eenvoudige manier om dat te doen is via de klassieke hypothese toetsen. Je probeert de hypothese dat de proportie NVA-stemmers een bepaalde waarde heeft te verwerpen. Die bepaalde waarde van de hypothese kan van eender waar komen, bv. van de vorige verkiezingsuitslag, van een politieke wetenschapper of van de schatting van een vorige peiling. Persoonlijk vind ik deze uitleg niet echt overtuigend omdat je in het laatste geval kunt stellen dat je niet helemaal zeker bent over de hypothese (de hypothese kwam immers zelf uit een peiling en is dus ook onderhevig aan steekproeffluctatie en dus onzekerheid). Bemerk in dat verband trouwens dat de redenering van @maartencorten, met een beetje goede wil, aansluit bij de school van de Bayesiaanse statistiek.
Een andere manier om het uit te leggen is erop wijzen dat de redenering uiteindelijk steunt op een hardnekkig misverstand rond betrouwbaarheidsintervallen. Ik geef toe, het gaat om een subtiliteit, maar deze subtiliteit ligt m.i. aan de grondslag van de redenering van @maartencorten. In wikipedia staat dit vrij goed uitgelegd:
Als je dit vreemd vind, geen nood, een prof. in politieke wetenschappen en een beroepsorganisatie van marktonderzoekers maakten onlangs net deze fout.
Goed, wat moet het dan wel zijn (cfr. 'Het is maar een peiling' van Frank Thevissen):
Dat is dus niet hetzelfde als zeggen dat er 95% kans is dat de werkelijke score van NVA in het betrouwbaarheidsinterval ligt. Het is dan ook weinig zinvol om zonder meer rond de twee steekproefschattingen betrouwbaarheidsintervallen berekenen en kijken naar de mate van overlap.
De derde, en allicht beste, manier is om een meer aangepaste test te doen waarin dit probleem expliciet wordt opgelost. Ik zou hier een gewone $\chi^2$ test doen. Als ik me bij het rekenen niet vergist heb is de waarde van de $\chi^2$-toets-statistiek hier 4.08 wat hoger is dan de kritische waarde van 3.84 (Bij 1 vrijheidsgraad en de gebruikelijke betrouwbaarheid van 95%). Er is dus een significante daling. Je kan wel niet zeggen dat die daling (minstens) 4% bedraagt (zelfs niet met een een betrouwbaarheid van 95%).
Ik wil er tenslotte nog op wijzen dat deze redeneringen enkel gelden indien aan alle statistische voorwaarden voldaan is (bv. het moet gaan om een aselect steekproef, enzovoort). Heel wat mensen merken op dat in de praktijk zelden aan die voorwaarden is voldaan en stellen dat klassieke opiniepeilingen niet geschikt zijn om verschuivingen van het electoraat te meten. Persoonlijk ben ik het eens met die kritiek, maar vind de alternatieven (panelonderzoek) ook niet zonder problemen.
Besluit: @OmbudsDS heeft m.i. gelijk, maar @maartencorten is een crypto-Bayesiaan, wat ook niet slecht is.
Ik was dus niet van plan om te regearen, maar, op populair verzoek (nu ja, enkel @janvandenbulck) toch enkele bedenkingen, met name over een twitter conversatie tussen @OmbudsDS en @maartencorten. Het uitgangspunt was de bijdrage van @OmbudsDS waarin hij schreef dat de berichtgeving over de peiling in zijn krant over het algemeen goed was. Eén van de argumenten was dat de berichtgeving zich spitste op de significante daling voor de NVA en niet op de kleinere verschillen. @maartencorten reageerde daarop met de volgende tweet:
Je zegt: verlies N-VA significant want betr.-interval 3%. Maar ijkingspunt is óók interval. Beetje flou, niet?
Op het eerste zicht lijkt de redering van @maartencorten steek te houden, immers beide cijfers komen van twee (onafhankelijke) steekproeven waarbij je voor elk een betrouwbaarheidsinterval kan berekenen. De redenering zou dan zijn dat men enkel van een significante verandering zou kunnen spreken indien de twee betrouwbaarheidsintervallen elkaar niet overlappen.
Het blijkt verrassend moeilijk te zijn om uit te leggen waarom de redenering van @maartencorten niet helemaal klopt. Ik zal toch enkele pogingen doen.
De meest eenvoudige manier om dat te doen is via de klassieke hypothese toetsen. Je probeert de hypothese dat de proportie NVA-stemmers een bepaalde waarde heeft te verwerpen. Die bepaalde waarde van de hypothese kan van eender waar komen, bv. van de vorige verkiezingsuitslag, van een politieke wetenschapper of van de schatting van een vorige peiling. Persoonlijk vind ik deze uitleg niet echt overtuigend omdat je in het laatste geval kunt stellen dat je niet helemaal zeker bent over de hypothese (de hypothese kwam immers zelf uit een peiling en is dus ook onderhevig aan steekproeffluctatie en dus onzekerheid). Bemerk in dat verband trouwens dat de redenering van @maartencorten, met een beetje goede wil, aansluit bij de school van de Bayesiaanse statistiek.
Een andere manier om het uit te leggen is erop wijzen dat de redenering uiteindelijk steunt op een hardnekkig misverstand rond betrouwbaarheidsintervallen. Ik geef toe, het gaat om een subtiliteit, maar deze subtiliteit ligt m.i. aan de grondslag van de redenering van @maartencorten. In wikipedia staat dit vrij goed uitgelegd:
Als we op grond van een steekproef een 95% betrouwbaarheidsinterval voor een populatiegemiddelde µ berekend hebben, kunnen we NIET zeggen dat er 95% kans is dat µ in dat interval ligt! Immers: µ ligt er in of µ ligt er niet in, een van beide.
Als je dit vreemd vind, geen nood, een prof. in politieke wetenschappen en een beroepsorganisatie van marktonderzoekers maakten onlangs net deze fout.
Goed, wat moet het dan wel zijn (cfr. 'Het is maar een peiling' van Frank Thevissen):
Indien we het onderzoek 100 keer zouden herhalen, dan zal de werkelijke waarde minstens 95 keer binnen het vooropgestelde betrouwbaarheidsinterval liggen.
Dat is dus niet hetzelfde als zeggen dat er 95% kans is dat de werkelijke score van NVA in het betrouwbaarheidsinterval ligt. Het is dan ook weinig zinvol om zonder meer rond de twee steekproefschattingen betrouwbaarheidsintervallen berekenen en kijken naar de mate van overlap.
De derde, en allicht beste, manier is om een meer aangepaste test te doen waarin dit probleem expliciet wordt opgelost. Ik zou hier een gewone $\chi^2$ test doen. Als ik me bij het rekenen niet vergist heb is de waarde van de $\chi^2$-toets-statistiek hier 4.08 wat hoger is dan de kritische waarde van 3.84 (Bij 1 vrijheidsgraad en de gebruikelijke betrouwbaarheid van 95%). Er is dus een significante daling. Je kan wel niet zeggen dat die daling (minstens) 4% bedraagt (zelfs niet met een een betrouwbaarheid van 95%).
Ik wil er tenslotte nog op wijzen dat deze redeneringen enkel gelden indien aan alle statistische voorwaarden voldaan is (bv. het moet gaan om een aselect steekproef, enzovoort). Heel wat mensen merken op dat in de praktijk zelden aan die voorwaarden is voldaan en stellen dat klassieke opiniepeilingen niet geschikt zijn om verschuivingen van het electoraat te meten. Persoonlijk ben ik het eens met die kritiek, maar vind de alternatieven (panelonderzoek) ook niet zonder problemen.
Besluit: @OmbudsDS heeft m.i. gelijk, maar @maartencorten is een crypto-Bayesiaan, wat ook niet slecht is.
Bedankt voor de uitleg. Ik heb dat nodig, zo nu en dan teruggefloten worden. Maar 'crypto-Bayesiaan', die komt bovenaan op mijn LinkedIn-profiel ;-).
ReplyDeleteIk zie het helemaal niet als terugfluiten. In tegendeel, ik vind dat je intuitief een juiste bedenking hebt gemaakt. In dit specifieke geval denk ik dat de daling, zelfs als je rekening houdt met de onzekerheid rond het ijkpunt, er wel een effect is. Maar bemerk hieronder dat zelfs daarover de meningen verdeeld zijn.
DeleteIk vind het vooral van belang dat journalisten rekening houden met de betrouwbaarheidsintervallen in hun berichtgeving, en dat deed DS, vandaar mijn besluit.
Groeten,
Istvan
Wat mij betreft houdt de redenering van @maartencorten wel degelijk steek. Door te vergelijken met een fixed percentage van vorige peiling wordt een serieuze onderschatting van de onzekerheid gemaakt. Bij het vergelijken moeten we zeker en vast de onzekerheid ivm het ijkpunt ook meenemen.
ReplyDeleteEn dit is mi geen Bayesiaanse redenering (al is het wel zo dat Bayesianen sowieso meer focussen op onzekerheid), maar simpelweg een correcte redenering. De correcte vraag is inderdaad of er een 'significant' verschil is in twee ongekende gemiddelden die we schatten uit twee 'onafhankelijke' datasets (i.e. peilingen). Bayesiaan of niet, ik zou denken dat iedereen het hier over eens kan zijn. Hoe hierop een antwoord formuleren, daarover verschillen de meningen wel tussen Bayesianen en 'klassieke' statistici.
In de 'klassieke' statistiek zou men obv het 'grote' aantal respondenten (denk ik toch, want veel gegevens kan ik hierover niet vinden) kunnen kiezen voor een independent samples t-test (als benadering van de binomial én met de nodige reserves die u ook in de laaste allinea aanhaalt).
Bayesianen zouden de posterior verdelingen van de gemiddeldes voor beide peilingen berekenen en deze twee verdelingen dan gaan vergelijken. Ik zou dit laatste graag willen demonstreren op de data van de peilingen, maar jammergenoeg zijn hierover te weinig gegevens te vinden...
Indien de data van beide peilingen voor handen zou zijn, zou ik niet in eerste instantie aan de Chi-sq toets denken om de daling/stijging van partijen te onderzoeken.
Groet!
@_3s_
PS: helemaal akkoord met heb belang van correcte interpretatie van de betrouwbaarheidsintervallen; is een van de eerste dingen waar ik mijn lessen 'Bayesiaanse statistiek' mee aanvang.
Mooi om met duidelijke argumenten Maarten op zijn plaats te zetten, maar je laat zelf je berekening niet zien (dat maakt jou een crypto-statisticus en dus de baas van crypto-Bayesianen). Daarom een vraagje: je maakte dan toch gebruik van de absolute cijfers en niet louter de percentages? Zonder die absolute cijfers moet je verder op basis van nog sterkere assumpties over de beide samples en overschat je de betrouwbaarheid van je getallen en dus de significantie van je chi².
ReplyDeleteBeste Tim,
Deleteik heb een antwoord op jou opmerkingen samengenomen met die van @_3s_ hieronder. Omwille van de restricties bij antwoorden doe ik het in een afzonderlijke post.
Beste @_3s_,
ReplyDeleteik heb een antwoord op jou opmerkingen samengenomen met die van Tim hieronder. Omwille van de restricties bij antwoorden doe ik het in een afzonderlijke post.
Zoals beloofd deed ik een Bayesiaanse analyse van deze data. De conclusies zijn niet anders dan wat in de pers verscheen, maar volgens mij wel interessant (zeker voor wie Bayesiaanse methoden nog niet kent).
Deletehttp://taptoe.wordpress.com/2013/06/05/reactie-op-enkele-bedenkingen-bij-de-recente-de-standaardvrttns-peiling/
Groeten, @_3s_
Do you need free YouTube Subscribers?
ReplyDeleteDid you know that you can get these AUTOMATICALLY & TOTALLY FOR FREE by using Like 4 Like?