All Things Data Science: March 2024

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel "De Grote Politieke Peiling en De Stemming zijn kaduke telescopen" waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel "Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’" van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken.

Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden.

Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefeningen statistiek aan de K.U.Leuven nog gekregen van de toen pas gedoctoreerde Marc Swyngedouw (Marc gaf toen de oefeningen statistiek samen met Ludo Daemen, die later één van de belangrijkste statistici van het onderzoeksbureau Nielsen werd). Verder heb ik gedoctoreerd bij Geert Loosveldt die uitgebreid aan bod komt in het artikel van De Morgen. Ik heb samen met John Lievens gestudeerd aan de (toenmalige) Katholieke Universiteit van Brussel, en Stefaan Walgrave was assistent in Leuven rond dezelfde periode dat ik er was en hij huurde me een 10-tal jaar geleden in in voor de De Grote Stemtest. Tenslotte moet ik vermelden dat ik werk voor Ipsos Nederland en Ipsos Global, en dat ik in het verleden werkte voor GfK en Nielsen, allemaal actief in de marktonderzoek sector.

De grond van de kritiek die in beide artikels wordt geuit is, denk ik, terecht: in veel gevallen is een probabiliteitssteekproef te verkiezen boven een steekproef uit een opt-in panel. Echter, als opdrachtgevers bereid zijn om te betalen voor een toevalssteekproef dan zullen de meeste onderzoeksbureaus daar graag op willen ingaan.

Ik vind het wel jammer dat de academici de indruk wekken dat respondenten zich zomaar kunnen aanbieden om mee te doen met een peiling. Dat is niet zo. Het klopt wel dat respondenten gerekruteerd worden op een manier die niet toevallig is en waar een zekere vorm van zelf-selectie allicht meespeelt, maar de respondent kan niet zelf beslissen of die meedoet aan een peiling. Dat gebeurt nog steeds door het toeval. Als er al politieke partijen zijn die proberen mensen in de opt-in panels te krijgen naar aanleiding van een komende peiling dan is de kans groot dat ze daar niet voor gekozen zullen worden en dat ze wel worden gekozen voor een studie over, bvb. wasproducten. Ik ken de interne keuken van Kantar niet, maar een panelist die weigert aan alle onderzoek mee te doen, en enkel de politieke opiniepeiling "cherry-pikt" die wordt na verloop van tijd uit het panel geweerd. Mijn collega Harm Hartman, stipt aan dat sommige marktondezoeksbureaus, zoals bijvoorbeeld "Ipsos Nederland", een "cool down" periode inbouwen om er zich van te vergewissen dat een kandidaat panelist ter goeder trouw is. Onder andere, op die manier worden mogelijke pogingen van manipulatie tegengegaan.

Ik vind het persoonlijk ook jammer dat geen enkele van de academici het nodig vond om aan te stippen dat, in tegenstelling tot academisch onderzoek, commercieel onderzoek bijna nooit gebruik kan maken van, bijvoorbeeld, het Rijksregister, en dat ze zich noodgedwongen moeten beperken tot (minder nauwkeurige) steekproeven uit adressen. Kortom, de privacy wetgeving maakt het gebruik van een zuivere toevalssteekproef de facto quasi onmogelijk voor marktonderzoeksbureaus.

Een ander punt dat de heren professoren niet vermelden is dat in veel gepubliceerd wetenschappelijk onderzoek er wel degelijk ook gebruik wordt gemaakt van opt-in panels. Als John Lievens zegt dat "Elke peiling die in de media verschijnt is een geschenk voor mijn lessen statistiek aan eerste bachelorstudenten: ze zijn een illustratie van slecht en onverantwoord onderzoek" dan neem ik aan dat hij dat ook zegt telkens één van z'n collega professoren een studie publiceert op basis van een opt-panel.

Een meer technisch puntje is de idee dat je enkel voor een toevaldssteekproef een betrouwbaarheidsinterval kan berekenen. Dat is niet helemaal juist. Betrouwbaarheidsintervallen maken een aantal veronderstellingen waarin toeval idd een grote rol speelt. Maar aan die veronderstellingen is ook niet steeds voldaan bij een toevalssteekproef. In een toevalssteekproef heb je ook non-response en die zal ook bias creëren. Er zijn methoden die dat probleem kleiner maken, maar dat geldt ook voor opt-in panels, alleen is het daar net iets moeilijker. Mark Blumenthal en Natalie Jackson, peilingsspecialisten bij de Huffington Post, geven in "The 'Margin Of Error' Is More Controversial Than You Think" een meer gebalanceerde visie over het gebruik van betrouwbaarheidsintervallen in peilingsondezoek.

Het valt me overigens op dat de methodologische argumenten van de academici dezelfde zijn als deze uit de jaren 80 en 90 van de vorige eeuw. De methodologie als discipline staat echter niet stil. Het is bijzonder om vast te stellen dat methodologen uit de sociale wetenschappen vaak veel dogmatischer zijn dan echte statistici.

Neem, bijvoorbeeld, de statisticus Andrew Gelman, die in The Washington Post een stuk schreef getiteld "Straight talk about polling: Probability sampling can be helpful but it’s no magic bullet". Hij geeft aan dat het verkeerd is om te vervallen in zwart-wit denken door te zeggen dat een probabiliteitssteekproef de enige oplossing is en een opt-in panel per definitie slecht. Of, om het met de woorden van Gelman zelf te zeggen:

Just about no sample of humans is really a probability sample or even close to a probability sample.

Als je Gelman volgt en je, zoals Johan Lievens, stelt dat: "Bij correct onderzoek moeten die toevallig geselecteerd worden uit de hele bevolking. “Alleen dan kan je uitspraken doen over die bevolking”" zeg je eigenlijk dat "correct" onderzoek niet kan zodra er mensen bij betrokken worden. Dat is wel bijzonder sneu voor de sociale wetenschappen.

Tenslotte, dit soort van onevenwichtige kritiek op peilingen is niet zonder gevaar. Hier is een greep uit de reacties op beide artikels op de sociale media:

Heel juist. Geen kat die gelooft dat Spa 13% zal halen, noch dat Vl. Belang maar 25% zou halen. Zal eerder 10% Spa en 30% vl. Belang.
Er is maar één betrouwbare peiling en dat zijn verkiezingen.
Volgens mij kan je de beste peilingen houden op café.

De kritiek zoals op opt-in panels zoals uitgedrukt in de twee artikels zal er niet voor zorgen dat er plots betere methoden worden gebruikt, het zal er wel voor zorgen dat er nog meer plaats wordt gegeven aan de mening van "politcal pundits", die overigens vaak zelf naast de verkiezingsuitslag zitten.

Een meer gebalanceerde analyse kan ook, getuige "The politics of polling: why are polls important during elections?" van Professor Jouni Kuha, Department of Statistics, LSE. kortom, er is meer aan de hand dan de twee artikels laten uitschijnen. Het is die nuance die ik wat miste in beide artikels.

All Things Data Science

Friday, March 22, 2024

Over kaduke telescopen en de glazen bol van Madame Soleil

About Me