Friday, March 22, 2024

Over kaduke telescopen en de glazen bol van Madame Soleil

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel "De Grote Politieke Peiling en De Stemming zijn kaduke telescopen" waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel "Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’" van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken. 


Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden.

Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefeningen statistiek aan de K.U.Leuven nog gekregen van de toen pas gedoctoreerde Marc Swyngedouw (Marc gaf toen de oefeningen statistiek samen met Ludo Daemen, die later één van de belangrijkste statistici van het onderzoeksbureau Nielsen werd).  Verder heb ik gedoctoreerd bij Geert Loosveldt die uitgebreid aan bod komt in het artikel van De Morgen. Ik heb samen met John Lievens gestudeerd aan de (toenmalige) Katholieke Universiteit van Brussel, en Stefaan Walgrave was assistent in Leuven rond dezelfde periode dat ik er was en hij huurde me een 10-tal jaar geleden in in voor de De Grote Stemtest.  Tenslotte moet ik vermelden dat ik werk voor Ipsos Nederland en Ipsos Global, en dat ik in het verleden werkte voor GfK en Nielsen, allemaal actief in de marktonderzoek sector.

De grond van de kritiek die in beide artikels wordt geuit is, denk ik, terecht:  in veel gevallen is een probabiliteitssteekproef te verkiezen boven een steekproef uit een opt-in panel. Echter, als opdrachtgevers bereid zijn om te betalen voor een toevalssteekproef dan zullen de meeste onderzoeksbureaus daar graag op willen ingaan. 

Ik vind het wel jammer dat de academici de indruk wekken dat respondenten zich zomaar kunnen aanbieden om mee te doen met een peiling. Dat is niet zo. Het klopt wel dat respondenten gerekruteerd worden op een manier die niet toevallig is en waar een zekere vorm van zelf-selectie allicht meespeelt, maar de respondent kan niet  zelf beslissen of die meedoet aan een peiling. Dat gebeurt nog steeds door het toeval. Als er al politieke partijen zijn die proberen mensen in de opt-in panels te krijgen naar aanleiding van een komende peiling dan is de kans groot dat ze daar niet voor gekozen zullen worden en dat ze wel worden gekozen voor een studie over, bvb. wasproducten. Ik ken de interne keuken van Kantar niet, maar een panelist die weigert aan alle onderzoek mee te doen, en enkel de politieke opiniepeiling "cherry-pikt" die wordt na verloop van tijd uit het panel geweerd. Mijn collega Harm Hartman, stipt aan dat sommige marktondezoeksbureaus, zoals bijvoorbeeld "Ipsos Nederland", een "cool down" periode inbouwen om er zich van te vergewissen dat een kandidaat panelist ter goeder trouw is. Onder andere, op die manier worden mogelijke pogingen van manipulatie tegengegaan.  

Ik vind het persoonlijk ook jammer dat geen enkele van de academici het nodig vond om aan te stippen dat, in tegenstelling tot academisch onderzoek, commercieel onderzoek bijna nooit gebruik kan maken van, bijvoorbeeld, het Rijksregister, en dat ze zich noodgedwongen moeten beperken tot (minder nauwkeurige) steekproeven uit adressen. Kortom, de privacy wetgeving  maakt het gebruik van een zuivere toevalssteekproef de facto quasi onmogelijk voor marktonderzoeksbureaus. 

Een ander punt dat de heren professoren niet vermelden is dat in veel gepubliceerd wetenschappelijk onderzoek er wel degelijk ook gebruik wordt gemaakt van opt-in panels. Als John Lievens zegt dat "Elke peiling die in de media verschijnt is een geschenk voor mijn lessen statistiek aan eerste bachelorstudenten: ze zijn een illustratie van slecht en onverantwoord onderzoek" dan neem ik aan dat hij dat ook zegt telkens één van z'n collega professoren een studie publiceert op basis van een opt-panel. 

Een meer technisch puntje is de idee dat je enkel voor een toevaldssteekproef een betrouwbaarheidsinterval kan berekenen. Dat is niet helemaal juist. Betrouwbaarheidsintervallen maken een aantal veronderstellingen waarin toeval idd een grote rol speelt. Maar aan die veronderstellingen is ook niet steeds voldaan bij een toevalssteekproef. In een toevalssteekproef heb je ook non-response en die zal ook bias creëren. Er zijn methoden die dat probleem kleiner maken, maar dat geldt ook voor opt-in panels, alleen is het daar net iets moeilijker. Mark Blumenthal en Natalie Jackson, peilingsspecialisten bij de Huffington Post, geven in "The 'Margin Of Error' Is More Controversial Than You Think" een meer gebalanceerde visie over het gebruik van betrouwbaarheidsintervallen in peilingsondezoek.

Het valt me overigens op dat de methodologische argumenten van de academici dezelfde zijn als deze uit de jaren 80 en 90 van de vorige eeuw. De methodologie als discipline staat echter niet stil. Het is bijzonder om vast te stellen dat methodologen uit de sociale wetenschappen vaak veel dogmatischer zijn dan echte statistici. 

Neem, bijvoorbeeld, de statisticus Andrew Gelman, die in The Washington Post een stuk schreef getiteld "Straight talk about polling: Probability sampling can be helpful but it’s no magic bullet". Hij geeft aan dat het verkeerd is om te vervallen in zwart-wit denken door te zeggen dat een probabiliteitssteekproef de enige oplossing is en een opt-in panel per definitie slecht. Of, om het met de woorden van Gelman zelf te zeggen:

    Just about no sample of humans is really a probability sample or even close to a probability sample.

Als je Gelman volgt en je, zoals Johan Lievens, stelt dat: "Bij correct onderzoek moeten die toevallig geselecteerd worden uit de hele bevolking. “Alleen dan kan je uitspraken doen over die bevolking”" zeg je eigenlijk dat "correct" onderzoek niet kan zodra er mensen bij betrokken worden. Dat is wel bijzonder sneu voor de sociale wetenschappen. 

Tenslotte, dit soort van onevenwichtige kritiek op peilingen is niet zonder gevaar. Hier is een greep uit de reacties op beide artikels op de sociale media:

  • Heel juist. Geen kat die gelooft dat Spa 13% zal halen, noch dat Vl. Belang maar 25% zou halen. Zal eerder 10% Spa en 30% vl. Belang.
  • Er is maar één betrouwbare peiling en dat zijn verkiezingen.
  • Volgens mij kan je de beste peilingen houden op café.

De kritiek zoals op opt-in panels zoals uitgedrukt in de twee artikels zal er niet voor zorgen dat er plots betere methoden worden gebruikt, het zal er wel voor zorgen dat er nog meer plaats wordt gegeven aan de mening van "politcal pundits", die overigens vaak zelf naast de verkiezingsuitslag zitten.
Een meer gebalanceerde analyse kan ook, getuige "The politics of polling: why are polls important during elections?" van  Professor Jouni Kuha, Department of Statistics, LSE. kortom, er is meer aan de hand dan de twee artikels laten uitschijnen. Het is die nuance die ik wat miste in beide artikels. 

Sunday, September 24, 2023

A Frequentist and a Bayesian go to a bar ...

(Note: you might want to refresh this page on your browser if the equations don't render correctly.) 

In the first installment of this blogpost, I illustrated that Fisher's rule of thumb of using $\frac{3}{n}$ for the upper limit of a 95% confidence/credible interval is a good approximation as soon a $n>=25$. This was inspired by a blogpost from John D. Cook on the subject.

At the end I made a remark about something odd that happens when $n=1$. Fisher's rule of thumb results in 1, which is not very informative. The Bionomial solution is 0.95. When $n=1$ this is now an actual Bernoulli, i.e. a special case of the binomial if you will:

$$P(S_1=0)= {1\choose 0}p^0(1-p)^1=0.05$$
$$= 1(1-p)=0.05$$
$$p=1-0.05=0.95.$$
Yet, in the Bayesian analysis, the result is p=0.78. Why?


First let's recalculate that number in an even simpler manual way than I showed in the first installment of this blogpost. We know that the distribution we're interested in is the Bernoulli distribution. The likelihood of a failure in that case is $1-p$. The prior is a uniform distribution. Imagine a grid going from 0 to 1 in steps of 0.0001. The prior distribution will have a constant for all possible values of $p$. For simplicity's sake, let's take 1. As the likelihood is $1-p$, applying this to the grid will yield a series starting from 1, followed by 1-0.0001=0.9999, followed by 0.9998, 0.9997, and so on, down to 0. That last value reflects the fact that for a value of $p$=1, the likelihood of observing a 0 with $p=1$ is 0.  The posterior is then trivially the prior multiplied with the likelihood, which, in this case, is the exact same series of the likelihood. Sampling from this posterior results in 0.77791 or approximately 0.78, as can be verified with the following one-liner:

quantile(x=sample(x=seq(from = 0, to = 1, by = 0.0001), 
                size=10000, 
                replace=TRUE, 
                prob=seq(from = 1, to = 0, by = -0.0001)), 
         probs=.95)

The difference between the Frequentist and Bayesian approach is subtle. Let me illustrate this with the following tale:

Freddy (a Frequentist) and Barry (a Bayesian) go to a bar. After serving them a drink, Ronny, the bartender, has a little quiz for them. They observe one trial, with a failure as the outcome. They don't know $p$, but they need to predict the next outcome. The only thing they know is that there can only be a success (1) or a failure (0), and that the second trial uses the same unknown $p$ as the one from the first trial. Freddy shouts \emph{maximum likelihood} and answers $0$. Barry mumbles something about preferring to answer with a distribution, but the bartender insists on one answer only. Barry then grudgingly agrees and whispers  \emph{Maximum A Posteriori} and answers $0$. They witness a new trial and sure enough the outcome is 0 again. Freddy and Barry do a happy dance and continue drinking. "Not so fast" says the bartender and asks how sure they were after the first trial. Freddy, who is a Frequentist, answers first and says: I have a 95\% confidence interval from 0 to 0.95, so if we were to repeat this exercise 100 times under the same conditions, I would expect that that the true $p$ would be in a similarly constructed confidence interval 95 out of the 100 cases, so I'm pretty sure. Barry, who is a Bayesian, is a bit more thoughtful and takes his time to answer. He jots a few numbers on a napkin and finally says: "I have a 95\% credible interval from 0 to 0.78, so there is a 95\% probability that the true parameter value falls between 0 and 0.78." The bartender now needs to decide who he will crown the winner. Luckily Ronny happens to know some R from a previous job, so he decides to simulate a whole series of quizzes. He heard Barry mention a uniform prior, so he decides, for each simulated quiz, to randomly pick a $p$ from the real line between 0 and 1 with equal probability. Next, just like in the actual quiz, he selects only those trials that have a failure, and for each of these he runs a new trial using the same $p$. He then counts the number of times the second trial is a failure, because that's what Freddy and Barry would predict each time. Finally he expresses the counts in proportions. To avoid any discussion he decides to also consider the complete set of outcomes, i.e. those with a failure in the first trial, and, those with a success in the first trial.

After running 10,000 simulated quizzes Ronny gets a proportion of 0.6602 of quizzes where the second trial was a failure. The proportion  of simulated quizzes where the second trial is a failure irrespective of the outcome of the first trial was 0.5028.

When Ronny sees that the proportion of simulated quizzes where the second trial is a failure irrespective of the outcome of the first trial is approximately 0.5, he quickly realizes why:
$$ E(X)=\int_0^1 E(X|p)f(p)dp,$$
in which $X$ is the Bernoulli random variable,  representing the outcome of the second trial in an experiment, $E(X|p)$ is the expected value of the Bernoulli random variable $X$ given a specific value of $p$, and $f(p)$ is the probability density function of $p$. Because the expected value of a Bernoulli random variable $X$ given a specific value of $p$ is trivially equal to $p$, and since $p$ is uniformly distributed over $[0, 1]$, $f(p)=1$, we now get:
$$E(X)=\int_0^1p \times 1~dp$$
$$ E(X)=\left[\frac{p^2}{2}\right]_0^1=\frac{1^2}{2}-\frac{0^2}{2}=\frac{1}{2}=0.5.$$
So, under these conditions, if you would repeat the quiz many times you would expect to have about as many failures as successes, just like Ronny observed.

If you first only select the cases where the first trial was a failure - just like in the original quiz - things get a tiny bit more complicated.  Let's call the outcome of the first Bernoulli trial $X_1$ and the second $X_2$. We want to know $E(X_2)$ so that we then can derive the (expected) proportion of failures in the second trial. Let's start by  using the law of total expectation:
$$E(X_2)=\int_0^1E(X_2|X_1=1)\times f(p|X_1=1)dp+\int_0^1E(X_2|X_1=0)\times f(p|X_1=0)dp$$
The first term is trivially 0. For the second term we know that $E(X_2|X_1=0)=p$. Let's work out the second part of the second term separately:
$$f(p|X_1=0)=\frac{f(X_1=0|p)\times f(p)}{f(X_1=0)},$$
using Bayes' rule. $f(X_1=0|p)$ is the conditional probability density function of $X_1$ being a failure given $p$, which is $1-p$. In this context $f(X_1=0)$ is the marginal probability density function of $X_1$ being a failure. To express that part let's start with the law of total probability:
$$f(X_1=0)=\int_0^1f(X_1=0|p)\times f(p)dp$$
All elements in that equation were discussed before so we can perform the integration:
$$f(X_1=0)=\int_0^1 (1-p) \times 1 dp=\left[p - \frac{p^2}{2}\right]_0^1=\left[1 - \frac{1}{2}\right] -\left[0 - \frac{0^2}{2}\right]=\frac{1}{2}.$$
All of this leads to:
$$f(p|X_1=0)=\frac{(1-p) \times 1 }{\frac{1}{2}}=2(1-p).$$
Now we can go back to $E(X_2)$ and write:
$$E(X_2)=0+\int_0^1 p \times 2(1-p) dp,$$
$$E(X_2)=2\int_0^1 (p-p^2) dp,$$
$$E(X_2)=2\left[\frac{p^2}{2}-\frac{p^3}{3}\right]_0^1=2 \left[ \left(\frac{1}{2}-\frac{1}{3}\right) - \left(\frac{0}{2}-\frac{0}{3} \right)\right]=2\left[\frac{1}{6}\right]=\frac{1}{3}.$$

If the expectation of $X_2 = \frac{1}{3}$, the probability of a failure for $X_2$ is $\frac{2}{3}=0.6667$, again very close to what Ronny observed.  

Before we continue let me add a comment from Romke Bontekoe on an earlier version of this blogpost. He remarked that Ronny was not the first to figure this out. Pierre-Simon Laplace, who lived from 1749 to 1827, had established the  rule of succession that states that:
$$P(X_{n+1}=1|X_1+X_2+ \dots+X_n=s)=\frac{s+1}{n+2}, $$
in which $s$ is the number of successes and $n$ the number of trials. Applied to this case, where we are interested in the probability of a failure, given 1 previous failure, we get:
$$P(X_2=0| X_1=0)=1-P(X_2=1| X_1=0)$$
$$P(X_2=0| X_1=0)=1-\frac{0+1}{1+2}=1-\frac{1}{3}=\frac{2}{3}.$$

So now Ronny understand where his results are coming from, but does that help him to decide who the winner will be? He decides to look at 95th percentile of the distribution of the generated $p$'s, both when all $p$'s are considered and when only those $p$'s are considered that returned a failure on the first trial. The results are 0.9478 and 0.7829 respectively. These numbers are very close to the 0.95 and 0.78 that Freddy and Ronny had mentioned. Ronny thus concludes that, while both Freddy and Barry answered 0, Barry gets the advantage for properly taking into account the result of the first trial. Freddy didn't learn anything from that first trial. If we would do the same exercise, but we would have witnessed a success in trial 1, and we would only continue with the $p$'s that lead to that success, Freddy would still insist on a 95% confidence interval from 0 to 0.95 for a failure in trial 2, while Barry would adjust his credible interval so that now it would go from 0 to 0.9746 instead of going from 0 to 0.78.

What can this be used for? Not much, I will admit, but it shows that, sometimes, even if you only get a sample of 1 you can already come to some conclusions. 
A second thing we can learn from this is that you don't need the integrals for Bayesian analysis, often you can just rely on simulations or other alternatives. One of the reasons why I only picked up Bayesian statistics at a later age is that when I was younger, as soon as a paper would use integrals instead of summations, I would mentally block and most often give up. But, if you're careful about the books and articles you read, Bayesian statistics is also accessible for people who are less fond of integrals.    


Tuesday, September 19, 2023

A note on observing zero successes

Say that you have a sample of size $n=1000$ and you observed $S_n=100$ successes. Traditionally you would use $\hat p=\frac{S_n}{n}=\frac{100}{1000}=0.1$ as a point estimate of the population proportion $p$. From a frequentist perspective you would probably also report a confidence interval:

$$p_-=\hat p - z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.08140581,$$

and

$$p_+=\hat p + z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.1185942,$$

using $z_\alpha=1.96$ for a 95% confidence interval (Assuming that the sample fraction is small, i.e. the universe size $N$ is large relative to $n$. Also, I will not go into how such a confidence interval needs to be interpreted.).

So far, so good. 

Now say you have observed zero successes, i.e. $S_n=0$, and you want to apply the procedure above. To start with, you can't because it violates the non-zero sample proportion assumption.   There are some alternatives such as the  Wilson Score Interval or the Clopper Pearson Interval. I will not discuss those, instead I will focus on how Bayesian analysis can help.

Say that someone wants to know what proportion of human beings can fly and say that you observe zero successes in a sample of $n=1000$. Many people would be willing to conclude that people can't fly. This is partly because people have very strong priors about the human capacity to fly. From an inductive reasoning point of view, you can never, with full certainty, conclude that humans can't fly until you have checked that for each individual in the population. The absence of evidence does not necessarily mean evidence of absence. 

In business statistics we don't have the time and resources to check all individuals of the population, furthermore, the complete absence of something is seldom of great concern from a business perspective. 

Nonetheless, sometimes, even in business, the absence question can be important. Think about the presence or absence of errors, for example. Clearly, in a lot of cases you can't verify all units whether there's an error or not. You then often sample cases. If it is of business interest to know whether the whole population of interest has no errors it's clear you will have to work with confidence intervals, credible intervals or some other way of expressing uncertainty.

What can you do? 

As explained by John D. Cook in his blogpost Estimating the chances of something that hasn’t happened yet (See https://www.johndcook.com/blog/2010/03/30/statistical-rule-of-three/), you could argue that we want to find the largest proportion $p$ such that:

$$P(S_n=0)= {n\choose 0}p^0(1-p)^n=0.05$$

or

$$(1-p)^n=0.05.$$

The 0.05 is coming from the fact that we want to have a 95% confidence interval. 

We want to resolve this last equation for $p$. First we take the logarithms at both sides:

$$\log((1-p)^n)=\log(0.05),$$

and we work out further to:

$$n \log(1-p)= -2.995732 \approx -3$$

We then apply the Taylor series expansion for $\log(1-p)$ and get:

$$n \left(-p -\frac{p^2}{2}-\frac{p^3}{3} - \dots \right) \approx -3$$

For small values of $p$  the higher-order terms become negligible and we can truncate the series after the first term, so that:

$$n (-p) \approx -3,$$

which leads to the rule of thumb that:

$$p \approx \frac{3}{n}$$

This rule of thumb is attributed to  Ronald A. Fisher who described it in his book Statistical Methods for Research Worker published in 1925.  

Notice that from a frequentist perspective, more specifically how confidence intervals should be interpreted, this rule of thumb is not without problems. Why this is the case would lead us too far, but there's a Bayesian argument to be made that leads to the same rule of thumb.

In the blogpost I mentioned earlier John D. Cook gives a Bayesian derivation:

Suppose you start with a uniform prior on p. The posterior distribution on p after having seen 0 successes and N failures has a beta(1, N+1) distribution. If you calculate the posterior probability of p being less than 3/N you get an expression that approaches 1 – exp(-3) as N gets large, and 1 – exp(-3) $\approx$ 0.95.

This derivation really relies on your knowledge of how to analytically come to an expression for the posterior distribution in this particular case. If you don't have that knowledge I present a more intuitive illustration here. 

We start again from a uniform prior distribution. The likelihood is simply the binomial. We don't know which $p$ to use so we use grid-approximation and use 10,000 values of p evenly distributed between 0 and 1. We multiply prior and likelihood to have an unstandardized posterior. Then we standardize the posterior.  Next we sample from the posterior and we summarize by picking up the 95th percentile.

Below you can find example code that illustrates how simple this idea can be implemented in R:

n<-100

p_grid<-seq(from=0, to=1, length.out=10000)

prior<-rep(1,10000)

likelihood<-dbinom(0, size=n, prob=p_grid)

unstd.posterior<-likelihood*prior

posterior<-unstd.posterior/sum(unstd.posterior)

samples<-sample(p_grid, prob=posterior, size=1e5, replace=TRUE)

q95<-as.numeric(quantile(samples, 0.95))

print(q95)

The result is close to Fisher's rule of thumb $p=\frac{3}{100}=0.03$. 

Next to the Bayesian approach with grid-approximation (abbreviated as Bayes), and Fisher's rule of three (abbreviated as Fisher), we also work out the binomial case (abbreviated as Binomial).

To do this we  go back a few equations a go , and work it out further:

$$\log(1-p)= \frac{-2.995732}{n},$$

and exponentiate both sides:

$$1-p= \exp\left(\frac{-2.995732}{n}\right),$$

which finally leads to:

$$p= 1- \exp\left(\frac{-2.995732}{n}\right).$$

I did this for $n$ going from 1 up to 50 and summarized it in the chart below.


First notice that the blue line with the results of the Bayesian analysis is more wobbly than the others. That's because we're sampling and we're using grid-approximation in that approach.  But for all practical purposes we see that all three approaches are pretty much equal to each other as soon as $n>25$. Finally, the attentive reader will have observed that something odd happens when $n=1$. This will be discussed in follow-up blogpost!



Wednesday, November 17, 2021

A simple R/Shiny app to illustrate two properties of means and medians

 Recently I saw two interesting discussions on Twitter that had to do with means and medians and the relationship between both. Both were in Dutch. The first one was between Casper Albers (@CaAl) and Zihni Özdil (@ZihniOzdil) about student loans (see here). The bottomline is dat Casper Albers reminded us that a positive stochastic variable can never have a median that is more than twice the mean.

The second discussion was between Joël De Ceulaer (@jdceulaer), Karel Anthonissen (@KAnthonissen),  Youssef Kobo (@Youssef_Kobo) and Koen Fillet (@filletk) about young people buying houses and the support they get from their parents (see here). That discussion also involved means and medians.  I mentioned that if a distribution has a finite variance, the absolute value of the difference between mean and median is at most equal to the standard deviation  (see here). 

These two properties are not well know and suprising to some. I will admit that I only learned about them many years after I had left university and even then rather by accident.

To illustrate this I made a small R/Shiny App that allows you to flexibelly specify a distribution. The app will then generate some data according to that distribution, calculate mean and median, and plot the results to show that the properties hold. 

To specify the distribution I use a mixture of two 5-parameter beta-distributions. The first component of the mixture distribution specifies the bulk of the distribution. Optionally one can use the second component to specify outliers that are much further away from the first component. 

You can access the R/Shiny here. Enjoy!


Tuesday, July 13, 2021

Opmerkingen bij kadering statistische resultaten van de Grote Coronastudie

 Inleiding

Enkele weken geleden hebben Thomas Neyens (UHasselt & KU Leuven), Jonas Crèvecoeur (UHasselt & KU Leuven), Niel Hens (UHasselt & UAntwerpen), Geert Molenberghs (UHasselt & KU Leuven), Koen Pepermans (UAntwerpen), Jan Aerts (UHasselt), Pierre Van Damme (UAntwerpen), Philippe Beutels (UAntwerpen) een lang verwachte kadering van de statistische resultaten van de Grote Coronastudie (GCS) gepubliceerd. 

De eerste bladzijden lezen als een beknopte inleiding in kwantitatieve onderzoeksmethoden. Alleen daarom al, loont het de moeite om het stuk van Neyens, Crèvecoeur, Hens et al. (2021) te lezen. Met name voor niet-specialisten is dit zeer lezenswaardig. De auteurs slagen er in om in enkele paragrafen en in een eenvoudige taal wegwijs te maken in de verschillende onderzoeksmethoden.  

Daarna wordt de GCS in dit kader geplaatst en van naderbij bekeken. Samengevat is de GCS is een observationele, niet-probabilistische survey die cross-sectioneel gebruikt wordt en zowel een samenvattend als een comparatief oogmerk heeft. 

Het zal voor veel lezers duidelijk zijn dat het meest problematische van deze opzet het niet-probabilistisch karakter van de studie is. Concreet wil dat zeggen dat deelnemers zelf het initiatief nemen om deel te nemen. De vertekening die hiermee gepaard gaat wordt in de GCS gecorrigeerd door een weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie. 

In het tweede deel doen de auteurs hun best om te illustreren dat, ondanks de gebreken van niet-probabilistische studies, de GCS toch waardevolle informatie kan opleveren. Ze doen dat door te verwijzen naar de brede oproepen die ze gedaan hebben op de klassieke media en de betaalde reclame waarvan ze gebruik hebben gemaakt op de sociale media. Ze wijzen (terecht) op het feit dat de GCS beschikbaar is in vier talen (Nederlands, Frans, Duits en Engels). Verder verwijzen ze naar het feit dat de resultaten vaak worden vermeld in de media waardoor veel mensen  zich bewust zijn van de studie. Uiteraard wordt het heel grote aantal deelnemers vermeld. Initieel was dat meer dan een half miljoen deelnemers. Nu schommelt het tussen de 20,000 en de 35,000. 

Neyens, Crèvecoeur, Hens et al. (2021)  besluiten dan ook dat ze “ervan overtuigd zijn dat deze studie, ondanks gebruikelijke studiebeperkingen, van grote waarde is, niet enkel als gegevensbron voor de wetenschappelijke wereld, maar ook als tool die de beleidsvorming kan helpen door snel tendensen en signalen op te vangen”. 


Kritische evaluatie

Mijn mening is iets genuanceerder. Ik denk dat het goed is dat we over de GCS kunnen beschikken, al is het maar omdat we over weinig andere alternatieven beschikken. Maar na meer dan een jaar had men toch aan beter instrument kunnen werken. Enkele weken geleden was er weliswaar een initiatief van, o.a., Statistiek Vlaanderen waarin wel een toevalssteekproef werd gebruikt, maar dat was enkel voor Vlaanderen. Overigens, heb ik tot mijn verbazing moeten vaststellen dat deze studie veel minder media aandacht heeft gekregen dan, bijvoorbeeld, de GCS. 


Selectie vertekening

Ook al halen de auteurs  selectie vertekening of selection bias aan, toch wordt er vrij snel om het probleem gewalst. In deze paragraaf proberen we alvast één bijkomend probleem aan kaarten. We gebruiken hiervoor een vereenvoudigde, fictieve, probleemstelling, kwestie van het overzichtelijk te houden. Voor een algemeen overzicht van selection bias bij web surveys verwijs ik naar Bethlehem (2010). 

Stel dat we willen weten in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. We hebben een hypothese dat leeftijd daarin geen rol speelt, en we willen nagaan of onze hypothese wel klopt. We zijn dus geïnteresseerd in de mate waarin mensen achter de Corona-maatregelen staan, en het verband tussen die variabele en leeftijd. Bovendien weten we de exacte verdeling van de variabele leeftijd voor de ganse populatie. We gebruiken die gegevens om te wegen, net zoals de GCS dat ook doet. De GCS weegt niet enkel op leeftijd, maar ook op geslacht, opleidingsniveau en residentiële provincie. De redenering achter weging van GCS samen met een eenvoudig voorbeeld vind je terug in de paragraaf Samenvattende statistische analyse op p. 6-7 van Neyens, Crèvecoeur, Hens et al. (2021). We doen dit omdat we uit ervaring of ander onderzoek weten dat, bijvoorbeeld, jongeren minder bereid zijn om mee te werken aan wetenschappelijk onderzoek. In de realiteit is het verband tussen leeftijd en de mate waarin men meewerkt met onderzoek veel complexer. Stel je nu voor dat de houding ten opzichte van de Corona-maatregelen van de regeringen ook een invloed heeft op  het deelnemen aan de GCS. Opnieuw, in de realiteit zijn dergelijke verbanden complexer, maar voor de eenvoud van deze illustratie gaan we ervan uit dat er een positief verband tussen houding ten opzichte van de Corona-maatregelen en bereidheid tot deelname. Dit lijkt bij de haren getrokken, maar er zijn genoeg voorbeelden uit de sociaal-wetenschappelijke literatuur die op zo'n verband wijzen. Bemerk overigens dat bij de Motivatiebarometer van de Universiteit van Gent er al expliciet in de fout wordt gegaan door op de landingspagina uit te pakken met een boodschap van de eerste minister. Voor alle duidelijkheid. Ik steun de eerste minister en z’n campagnes, maar dit hoort niet thuis in een objectief meetinstrument. 

Schematisch kunnen we de hierboven geschetste situatie als volgt voorstellen (Voor meer details over deze notatie zie Pearl & Mackenzie (2019) en Thoemmes & Mohan (2015).):




Om te illustreren wat er in zo'n situatie gebeurt heb ik een kunstmatige bevolking van 1 miljoen volwassen personen gegenereerd waarbinnen geen verband is tussen leeftijd en houding. In deze denkbeeldige populatie bedraagt het gemiddelde 58.5 jaar (Dit is aan de hoge kant en niet realistisch voor de Belgische volwassen populatie). en is de gemiddelde score op de houdingsvariabele 5 (op een 10-punten schaal). De correlatie tussen de 2 variabelen bedraagt afgerond 0.00. 

Vervolgens heb ik een steekproef van 10,000 eenheden genomen waarbij de selectiekans afhangt van leeftijd en de houding t.o.v. de Corona maatregelen. In die steekproef is de gemiddelde leeftijd bijna 10 jaar ouder (67.6 jaar) dan in de populatie waar ze uit getrokken is. Dat hoeft niet te verbazen, gegeven de selectiemethode die gehanteerd is. We merken trouwens op  dat na weging de gemiddelde leeftijd terug daalt naar 58.8, zeer dicht bij de populatie-waarde. Laat ons dan eens kijken naar de gemiddelde score op de 10-punten schaal van mate waarin men achter de Corona-maatregelen van het regeringscomité staat. Deze bedraagt 6.2 in de steekproef. Dat is bijna een kwart meer dan het gemiddelde in de populatie waaruit de steekproef genomen is. Ook dat hoeft niet te verbazen gegeven dat we een verband hebben verondersteld tussen leeftijd en bereidheid tot deelname aan dit soort van onderzoek. 

Wat vervelender is, is dat, na weging, dit gemiddelde nagenoeg hetzelfde blijft of zelfs iets stijgt (6.4). Meer nog, daar waar in de populatie de correlatie tussen leeftijd en de mate waarin men achter de Corona-maatregelen van het regeringscomité staat 0 was, bedraagt die correlatie nu -0.18. Dit is, bij zo'n grote steekproef, overigens significant. Ook hier helpt wegen niet (correlatie bedraagt dan -0.21). Dit verschijnsel is een illustratie van wat soms de paradox van Berkson wordt genoemd. De epidemiologen en bio-statistici onder de auteurs kennen deze paradox maar al te goed, maar men had volgens mij duidelijker moeten verwoorden dat de assumptie wordt gemaakt dat er in de GCS geen enkele van dergelijke variabelen bestaan. Persoonlijk denk ik overigens dat zo'n assumptie niet realistisch is in deze context. Overigens verscheen onlangs nog een overzichtsartikel over collider bias in de context van COVID-19 (zie Griffith, Morris, Tudball et al., 2020).    

Het punt hier is niet dat leeftijd een effect heeft op deelnamebereidheid, dat weten we al. Ik probeer wel te illustreren dat er heel wat variabelen denkbaar zijn die die rol kunnen spelen en dat weging in dat geval weinig aan het probleem verhelpt. Dit had in Neyens, Crèvecoeur, Hens et al. best wat explicieter naar voren mogen worden geschoven.  


Comparatieve statistische analyse

De auteurs stellen dat (Neyens, Crèvecoeur, Hens et al., 2021, p. 7):

Vergelijkingen doen we via statistische modellen. In die modellen hebben niet-representatieve steekproeven meestal geringe effecten wanneer de karakteristieken die vertekening veroorzaken als zogenaamde confounders in de modellen opgenomen worden.

De vraag is natuurlijk of die mogelijke confounders op afdoende wijze zijn gemeten in de vragenlijst en vervolgens zijn opgenomen in statistische modellen. Het is, bijvoorbeeld, helemaal niet zo'n gekke hypothese om te veronderstellen dat de houding van mensen ten opzichte van de Corona-maatregelen voor een deel te maken hebben met de algemene politieke en ideologische houding van mensen. Voor zover ik weet werd dit niet gemeten in de GCS.  

Het probleem van niet gemeten confounders geldt natuurlijk ook voor onderzoek dat gebaseerd is op een representatieve steekproef. Het punt is hier eerder dat de auteurs expliciet het opnemen van confounders vermelden als voorwaarde voor het maken vergelijkingen bij niet-representatieve steekproeven. Met andere woorden, de assumptie hier is dat alle mogelijke, belangrijke, confounders zijn gemeten in de GCS en vervolgens zijn opgenomen in de statistische modellen.  

Terloops wil ik hierbij opmerken dat, in de context van houdingen en gedragingen gemeten via zelf-rapportering, de richting van causale verbanden niet altijd éénvoudig vast te stellen is. Een confounder kan dan eigenlijk een collider blijken te zijn en in dat geval kan je de variabele beter niet opnemen in je statistisch model (Zie McElreath, 2020).

Hoe dan ook, de auteurs geven, mijns inziens, een te optimistisch beeld van de mate waarin statistische modellen in staat zijn om uit niet-representatieve steekproeven zoals de GCS toch correcte vergelijkingen te maken. Het probleem ligt voornamelijk bij de niet-geobserveerde determinanten van de variabelen waarin we interesse hebben. Mijn bekommernis richt zich voornamelijk op het gedeelte van de studie dat gaat over de publieke opinie rond Covid en de regeringsmaatregelen. Ik laat dus wel de mogelijkheid open dat de data van de GCS nuttig kan zijn om het verloop van de epidemie te modelleren. Ik ga er immers van uit dat die modellen expliciet rekening houden met de vertekeningen die zich bij  niet-representatieve steekproeven kunnen voordoen. 


Vertekening-variantie afweging

Vertekening-variantie afweging, beter bekend onder de Engelse benaming Bias–variance tradeoff, verwijst naar het conflict dat ontstaat door te proberen twee soorten fouten, bias en variantie, te minimaliseren. Concreet wil dit bij de GCS zeggen dat men weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie gebruikt als middel om bias te reduceren (bij routinematige rapporten). De auteurs geven toe dat dit problematisch is voor bepaalde groepen. Zo zijn er relatief weinig laaggeschoolde, oudere mannen uit Henegouwen in de steekproef, wat de precisie doet dalen. Dit verwijst naar de variantie component van de   bias-variantie afweging. De oplossing die de GCS daarvoor hanteert is het aftoppen van gewichten zodat een gewicht maximaal 40 keer zo groot kan zijn als het kleinste gewicht. 

Het criterium van 40 wijst erop dat bepaalde groepen zoals mannelijke, oudere, laagopgeleide inwoners van Henegouwen verschillende malen minder vaak voorkomen dan je zou verwachten op basis van de populatie. Het exacte aantal keren kan ik niet afleiden uit het getal 40, maar ik vermoed dat het groter is dan 5 keer. Aftoppen op zich is zeker verdedigbaar, maar je zou dan wel explicieter mogen stellen dat je de variantie reductie betaalt door een verhoogde bias. Je kan je de vraag stellen wat in de GCS primeert, bias of variantie. Mij lijkt het dat voor heel wat rapporten en kerncijfers die uit de GCS worden afgeleid, bias belangrijker is dan variantie. Laat me deze stelling illustreren door terug te grijpen naar de vraag in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. Als we niet over een wetenschappelijk instrument beschikken om dit te meten kunnen we alleen maar gissen op basis van wat er in de kranten geschreven wordt, wat op de sociale media te lezen is of wat onze vrienden en collega's te vertellen hebben. Ik denk dat iedereen het over eens zal zijn dat dit geen goede alternatieven zijn. De GCS zou, voor deze vraagstelling, zich moeten concentreren op de vraag of het percentage voorstanders, ik zeg maar wat, 25%, 50% of eerder 75% is. M.a.w. staat de meerderheid erachter, of slechts een minderheid, of is het een dubbeltje op z'n kant? In dat geval zijn we minder geïnteresseerd of er nu rond die schatting een betrouwbaarheidsinterval van, ik zeg opnieuw maar wat, 2%, 4% of 8% breed is. Uiteraard is een kleiner betrouwbaarheidsinterval beter, maar in dit gevoelig thema, waarin de zwijgende meerderheid zelden gehoord wordt, lijkt bias me erger.

Ik wil hier wel opnieuw een uitzondering maken voor het gedeelte van de GCS dat gebruikt wordt om de statistische modellen die gebruikt worden op het verloop van de pandemie te voorspellen. Voor deze modellen is variantie allicht wel belangrijker dan voor de meer algemene rapportering rond maatschappelijke thema's. De auteurs verwijzen trouwens naar specifieke, en vaak vernieuwende, technieken die hiervoor werden gebruikt.  


Alternatieven

Zijn er dan geen alternatieven? Die zijn er wel. Het meest evidente alternatief is de toevalssteekproef. Als er één toestand is waarbij vrijwel iedereen het ermee eens zal zijn dat het trekken van een toevalssteekproef uit het Rijksregister geoorloofd is dan is het deze wel. De Corona-crisis is allicht de grootste crisis waar België tegenaan kijkt sinds de tweede wereldoorlog. Het is van cruciaal belang om te weten wat de houdingen zijn van mensen rond deze crisis. Het is van cruciaal belang om dat dan ook op een wetenschappelijk correcte manier te doen. Bovendien lijkt deze Corona-crisis de mogelijkheid bij uitstek om een goede respons te halen. Zowat iedereen, zowel de voorstanders van strenge maatregelen als de tegenstanders daarvan, hebben belang bij een correct meting. Een goed georchestreerde campagne, met zowel voor als tegenstanders, rond het belang van deelname aan zo'n onderzoek zou in mijn ogen een historische responsegraad kunnen opleveren.

Toegegeven, in zo'n geval zou je niet de grote steekproef aantallen halen waar de GCS over kan buigen. Ik ben er me ook bewust van dat die grote aantallen van belang zijn van zodra men ook geografische verschillen wil meten. Ik vermoed dat dit vooral voor de modellen belangrijk is. Hoe dan ook, ik vind het een gemiste kans dat men niet minstens één van de GCS edities heeft laten samengaan met een landelijke, op het Rijkregister gebaseerde, studie. Als men dan een aantal gemeenschappelijke vragen had opgenomen had men over vergelijkingsmateriaal beschikt dat vanuit wetenschappelijk en beleidsstandpunt bijzonder waardevol was geweest. Gegeven de gigantische kost die de overheid moet dragen in deze Corona-crisis is deze kost peanuts. Als uit zo'n vergelijking zou blijken dat de GCS het best aardig doet, dan zou dat sceptici zoals ikzelf over de streep kunnen trekken.

In de survey literatuur worden overigens ook een aantal alternatieven voorgesteld. Graag verwijs ik naar een methode die Multilevel Regression and Post-stratification (MrP) wordt genoemd. In die methode wordt poststratificatie gebruikt om te corrigeren voor selection bias, ook al is de vertekening groot en zijn er veel (combinaties van) variabelen in betrokken. Multilevel regressie wordt dan weer gebruikt om te zorgen voor stabiele schattingen op kleine subgroepen. Voor meer details zie Wang, Rothschild, Goel and Gelman (2015).

Een gekend voorbeeld is dat van een panel van xbox-gebruikers in de Verenigde Staten dat werd bevraagd over hun voorkeur voor twee presidentskandidaten. Zo'n panel is bij uitstek niet-probabilistisch en gebiased. Het panel heeft een oververtegenwoordiging van jongeren, mannen en blanken. Toch bleek dat de analyse met de MrP-methode goede resultaten opleverden (Wang, Rothschild, Goel and Gelman, 2015).

De steekproef van de GCS is natuurlijk niet zo zwaar gebiased als deze van de xbox gebruikers, maar het toepassen van dergelijke methoden zou volgens mij ook voor de GCS vruchtbaar kunnen zijn.


Beleidsconsequenties

Mijn conclusie is dat het goed is dat de GCS bestaat. Het heeft z'n dienst bewezen in moeilijke tijden. Maar, naar analogie met het Deltaplan dat na de overstromingsramp van 1953 in Nederland werd opgezet om ervoor te zorgen dan een dergelijke ramp zich niet nogmaals zou kunnen voltrekken, heeft België, m.i., nood aan een sociaal-wetenschappelijk Deltaplan waarin, op een rigoureus wetenschappelijke manier, op geregelde tijdstippen, naar de houdingen van de Belgen t.o.v. belangrijke maatschappelijke thema's wordt gepeild. Bij afwezigheid van een dergelijk meetinstrument wordt het maatschappelijk debat te veel gekleurd door de hardste roepers op de sociale media. De afgelopen anderhalf jaar hebben we te vaak regeringen zien zwichten voor de druk  waarbij, m.i., de stem van de stille meerderheid over het hoofd werd gezien.    


Referenties

Bethlehem, J. (2010). Selection bias in web surveys. International Statistical Review, 78(2),

161-188. https://doi.org/10.1111/j.1751-5823.2010.00112.x

Griffith, G.J., Morris, T.T., Tudball, M.J. et al. (2020). Collider bias undermines our understanding of COVID-19 disease risk and severity. Nat Commun 11, 5749. https://doi.org/10.1038/s41467-020-19478-2

McElreath, R (2020). Statistical Rethinking. A Bayesian Course with Examples in R and Stan. Second Edition. Boca Raton: CRC Press.

Neyens, T, J. Crèvecoeur, N. Hens, G. Molenberghs, K. Pepermans, J. Aerts, P. Van Damme, P. Beutels (2021). De Grote Coronastudie: een kadering van statistische resultaten. In: https://covid-en-wetenschap.github.io/2021/04/grote-coronastudie-kadering.

Pearl, J. and D. Mackenzie (2019). The Book of Why: The New Science of Cause and Effect. Penguin

Thoemmes, F. and K. Mohan (2015). Graphical Representation of Missing Data Problems. Structural Equation Modeling: A Multidisciplinary Journal, 22: 631–642, 2015

Wang, W., D. Rothschild, S. Goel, A. Gelman (2015). International Journal of Forecasting, 31(3), 980-991. Elsevier.







Thursday, February 25, 2021

Beware of the constrictive data science pyramid!

I tried writing on Medium. It features data science, constrictive pyramids and carpentry, but essentially it's about #HR in #Tech 😎.

Here's the result.


Regards,

Istvan

Monday, July 6, 2020

Tijd voor een noodsteekproef

In De Morgen van 23 juni 2020 doet Paul De Grauwe een oproep om mondmaskers in alle publieke ruimtes waar de afstandsregel niet kan worden gerespecteerd te verplichten. Zijn pleidooi is gebaseerd op de observatie dat de aanbeveling die tot dan gold onvoldoende is gebleken.  Ik steun de oproep van De Grauwe volledig.

Op 2 juli meldde De Morgen dat volgens de Grote Coronastudie van de universiteiten van Antwerpen, Hasselt en Leuven en de ULB, 77 procent van de Belgen mondmaskers wil verplichten in de supermarkt.

Deze twee observaties zijn niet noodzakelijk tegenstrijdig. Het zou kunnen dat tussen 23 juni en 2 juli de publieke opinie veranderd is. Het zou ook kunnen dat  mensen het 'wederkerig altruïsme' argument van De Grauwe goed begrepen hebben en zich realiseren dat enkel verplichting mensen (inclusief zichzelf) zal aanzetten tot het dragen van een mondmasker.

Een andere mogelijkheid is dat de observaties wel tegenstrijdig zijn en dat (minstens) één van de twee fout is.  Op het eerste zicht zou je kunnen stellen dat de observatie van De Grauwe dat het mondmasker nog steeds weinig gebruikt wordt anekdotisch van aard was en zeker niet als een wetenschappelijke vaststelling mag worden gezien. De Grote Coronastudie is een studie die door 4 Belgische universiteiten wordt opgezet en steun geniet van het FWO. Je zou dus geneigd zijn om meer belang te hechten aan deze laatste.
Toch wringt er iets.

Ten eerste zijn deze bevindingen moeilijk te rijmen met buitenlands onderzoek.  Zo is er een Yougov studie die aangeeft dat vooral in de Zuiderse landen mondmaskers gedragen worden (ongeveer 85%). In Duitsland is dat al een pak minder (64%) en in het verenigd koninkrijk is dat slechts 21%. Het zou me ten zeerste verbazen mocht België, of toch zeker het Vlaamse gedeelte, wat dit betreft eerder aansluiten bij zuid-Europa dan met de andere noordelijke landen.

Maar het grootste probleem lijkt me dat de resultaten van de Grote Coronastudie gebaseerd zijn op zelf-selectie. Iedereen kan meedoen aan deze studie.  Het argument waar het vaakst mee wordt geschermd is het hoge aantal observaties waar de studie op kan rekenen. Los van het feit dat dit, uitgerekend op statistische gronden, een zwakke redenering is (zie bvb. Bethlehem, 2008), zou je je dan toch minstens vragen moeten stellen bij de dalende participatie bij deze studie. De grafiek hieronder geeft het aantal deelnemers per golf.

De daling is spectaculair.  Daar waar er in het begin nog meer dan een half miljoen deelnemers waren is dit nu geslonken tot 27,000. Dat is een daling met een factor 20.  Het lijkt zeer onwaarschijnlijk dat de samenstelling bij de laatste golf dezelfde is als bij de eerste golf. Zelfs als de onderzoekers een inspanning doen om de gevolgen van de scheeftrekking te verminderen, bijvoorbeeld door middel van weging, dan nog blijft de zelf-selectie problematisch. We weten uit wetenschappelijk onderzoek immers dat de deelname aan dergelijke studies (o.a.) gecorreleerd is met de mate van betrokkenheid met het onderwerp (zie bvb. Groves, Presser & Dipko). Het is aannemelijk dat de deelnemers van de meest recente golven meer betrokken zijn met het onderwerp van de studie en allicht ook andere houdingen en gedragingen hebben t.o.v. Corona. We kunnen dit illustreren aan de hand van één de resultaten van de 14de golf van de Grote Coronastudie: "Het percentage deelnemers dat aangeeft COVID-19-symptomen te vertonen, maar toch zegt nooit een mondmasker te dragen, daalt significant doorheen de tijd. Jongeren trokken er zich er in het begin het minst van aan, maar zijn er zich nu wel veel meer van bewust." Denken we echt dat jongeren zich er nu meer van bewust zijn en/of er nu meer naar handelen? In de pers lezen we ondertussen over het toenemende aantal lockdown feestjes bij jongeren, en over de problemen rond het Flagey-plein na het sluitingsuur van de cafés. Dat lijkt allemaal moeilijk met elkaar te rijmen. Is het niet eerder zo dat het aandeel jongeren die er zich minder van aantrok nu gewoon niet meer of in ieder geval minder meedoet met de Grote Coronastudie? M.a.w. de daling kan evengoed verklaard worden door een toegenomen selection bias.

Overigens zeg ik uitdrukkelijk niet dat het onmogelijk is om zinvolle conclusies te trekken uit steekproeven gebaseerd op zelf-selectie. Zo is er een interessante studie van Andrew Gelman en collega's (Wang et al., 2014) die  met een steekproef  op basis van zelf-selectie op het Xbox platform toch zinvolle conclusies konden trekken over het stemgedrag bij de Amerikaanse verkiezingen. Hun methode steunt op multilevel-regressie en post-stratificatie. Deze technieken zijn echter helemaal niet eenvoudig. Maar vooral, het is hier niet nodig, want er bestaat een alternatief, i.e. een goede ouderwetse toevalssteekproef. Ik kom daar straks nog op terug.

Helaas is dit niet het enige geval. De "Coronastudie: hoe stel jij het in 'uw kot'?"  van  de Gentse universiteit is ook gebaseerd op zelf-selectie. Ook de studie Kinderrechtenperspectief in de coronacrisis is gebaseerd op zelf-selectie. De initiatiefnemers hebben tenminste wel de reflex om in hun methodologische nota te verduidelijken dat  "de resultaten zijn niet zonder meer te veralgemenen naar alle kinderen en jongeren".  Dat is een stap vooruit, maar die nuance is in ieder geval niet door de pers opgepikt.

Ik wil nog even terugkomen op het feit dat de meeste van de studies die ik aanhaal door academici ondersteund worden. Ik geloof dat het in 2007 op de emeritaatsviering van Prof. Dr. Jaak Billiet was dat Louis Tobback in een debat politieke opiniepeilingen afdeed als het lezen van de toekomst in de ingewanden van een vis. Veel academici waren het toen met hem eens. Welnu, aan alle onderzoekers die gebruik maken van een steekproef gebaseerd op zelf-selectie en die zich schuilen achter een groot aantal deelnemers zou ik, Tobback indachtig, willen zeggen dat het niet is omdat je de ingewanden van een walvis gebruikt dat je beter de toekomst kan voorspellen. 

Gelukkig zijn er heel wat andere academici die zich wel rigoureus aan de methodologische regels houden. Heel wat van hen zeggen me overigens privé dat ze het zelf ook graag anders zouden willen zien.  Ze wijzen er trouwens op dat dit soort onderzoek niet gepubliceerd geraakt in ernstige wetenschappelijke tijdschriften. Ik heb begrip voor hun standpunt, maar persoonlijk blijf ik het wel problematisch vinden dat (een deel van) ons Corona-beleid op dit soort onderzoek steunt. 

Voor alle duidelijkheid, het is helemaal mijn bedoeling niet om De Grote Corona studie op zich te bekritiseren. Integendeel, deze studie biedt heel wat essentiële  informatie die gebruikt wordt in statistische modellen, waarbij de statistici ook rekening houden met het niet aselect karakter van deze databron. Echter, voor het meten van de publieke opinie is de Grote Coronastudie een minder geschikt instrument.  

Wat is dan het alternatief?

Wel, het is wat in onbruik geraakt, maar een goede toevalssteekproef in combinatie met een zorgvuldig opgestelde vragenlijst - dat is overigens een kunde die weinig mensen beheersen - is vanuit wetenschappelijk standpunt nog steeds te verkiezen. In de dagdagelijkse praktijk spelen er minstens 2 hinderpalen mee. Ten eerste wordt het trekken van een goede steekproef sterk vereenvoudigd wanneer men over een lijst met alle populatie-eenheden beschikt (in vakjargon wordt van een steekproefkader gesproken), maar,  voor commercieel marktonderzoek, wordt het gebruik maken van zo'n lijst om privacy redenen niet meer aanvaard. Hierdoor is het trekken van een goede steekproef veel moeilijker geworden. De tweede hinderpaal is de stijgende non-response bij survey-onderzoek over de jaren heen (zie Beullens et al., 2018 en de referenties daarin). 

Uitgerekend in  deze Corona tijden hoeven deze twee hinderpalen hier niet mee te spelen. Ten eerste wordt er voor wetenschappelijk onderzoek en/of onderzoek dat door de overheid gesteund wordt een uitzondering gemaakt op het gebruik van, bijvoorbeeld, het Rijksregister voor het trekken van een steekproef. Ik meen dat de Corona studie bij uitstek zo'n uitzondering is. Ten tweede, als het politiek en praktisch goed wordt aangepakt, is het niet ondenkbaar dat de response voor deze studie zeer goed zou meevallen. 

We hebben met deze Corona crisis een kans gemist om sociaal-wetenschappelijke data van goede kwaliteit te verzamelen. Het is nu zaak om goed voorbereid te zijn bij een mogelijke tweede of derde golf. Dit is geen overbodige luxe. Nu reeds wordt volop gespeculeerd of bij zo'n nieuwe golf mensen een tweede lockdown gaan aanvaarden of niet.  Vaak wordt aangegeven dat dit niet het geval zou zijn. Maar op basis van wat wordt zo'n stelling verkondigd? Ik weet zelf het antwoord op de vraag niet. Ik weet wel dat je dit niet kunt doen door speculatie, steunen op gezond verstand en al zeker niet op basis van een bevragingsmethode die ingaat tegen alle advies die methodologen hierover al jaren verspreiden. 

Het is nu de moment om ons goed voor te bereiden en te werken aan wat Tim Goedemé, Senior Research Officer aan het Institute for New Economic Thinking, University of Oxford, in Knack een noodsteekproef noemde. Deze oproep sluit ook aan bij een recent advies van de Serv ("Advies betere data voor het (corona-)beleid"). Helaas was de eerste Corona golf te snel om dit nog rond te krijgen, maar voor een mogelijke tweede golf zijn er geen excuses meer. Ik heb begrepen dat alvast bij de Vlaamse administratie er plannen zijn in die richting. Ik kan dat alleen maar toejuichen.



Referenties:

Bethlehem, J. How accurate are self-selection web surveys?  Discussion paper (08014). CBS Statistics Netherlands, The Hague/Heerlen, 2008. 

Groves, R.M., S. Presser, S. Dipko. The Role of Topic Interest in Survey Participation Decisions.  Public Opinion Quarterly, 2004, Vol 68, No. 1, Pp 2-31 

Wang, W., D. Rotschild, S. Goel & A. Gelman. Forecasting Elections with non-representative polls. International Journal of Forecasting (2014).

Beullens, K., Loosveldt G., Vandenplas C. & Stoop I. (2018). Response Rates in the European Social Survey: Increasing, Decreasing, or a Matter of Fieldwork Efforts? Survey Methods: Insights from the Field. Retrieved from https://surveyinsights.org/?p=9673