Posts

Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking

Image
 Het is nu zondag 11/08/2024 en we naderen het einde van de Olympische Spelen 2024. Dit is het moment waarop lijstjes worden gemaakt van de landen met de meeste medailles. Dit jaar ziet het er naar uit dat de Verenigde Staten, China, Groot-Brittannië, Frankrijk en Australië de top 5 zullen uitmaken. Net zoals dat bij de vorige spelen zo was, zal er opgemerkt worden dat de Verenigde Staten en vooral China veel medailles verzamelen omdat ze een groot aantal inwoners hebben. Het Belgische Sporza (Sporza is de merknaam voor alle sportuitzendingen van de VRT op radio, televisie, internet en multimedia.) verwoordde het tijdens de Spelen van Tokio in 2021 als volgt: China prijkt bovenaan de officiële medaillestand van de Olympische Spelen. Een evidentie, want met 1,4 miljard inwoners heeft het land een grote visvijver vol talent. Hoe zou de medaillestand eruitzien als we de oefening maken per aantal inwoners? Wat blijkt: een dwergstaat schittert in dat geval helemaal bovenaan. De dwergstaat

How Accurate Were the Pollsters in Flanders? You be the Judge

Image
Last weekend, elections were held in Belgium. Not only for the European Parliament, but there were also federal and regional elections. As usual some people were quick to dismiss the polls. Isabel Albers,  General Editor of De Tijd / L'Echo, made it clear on Twitter that she was not impressed: Some losing politicians made similar claims. Groen (the flemish Green party)  co-chair Nadia Naji described her party's results as better than what the polls had predicted. Let's have a look at that claim: In 5 of the last 6 polls the true result was well within the usual confidence intervals (more on confidence intervals later). Only in the most recent one the true result was just outside of the 95% conidence interval, but notice that, to some extent, this is because the sample size in the last poll was 2000, which is higher than usual. As the blue line suggests, if you average the most recent polls, you would come very close to the actual election result. (More on poll averaging lat

'Les extrêmes se touchent', maar net iets minder met Jaccard en in twee dimensies

Image
Vorige week lanceerde De Morgen hun stemtest . Deze stemtest, van de hand van Ann De Boeck, Stavros Kelepouris, Jan Straetmans en Joris Heijkant, valt op door haar aantrekkelijke eenvoud. In plaats van allerlei ingewikkelde berekeningen te doen is hun insteek dat je maar best kan kijken naar het stemgedrag van de partijen in de Kamer, in het Vlaams Parlement en in het Europees Parlement en dan gewoon tellen hoeveel overeenstemmingen er zijn met de keuze van de deelnemer van de stemtest.  Het begon wel met een domper. Al snel na de lancering doken er fouten op op de sociale media. Zo wees @_TomGarcia_ op Twitter dat sommige standpunten van partijen initieel niet klopten en naderhand verbeterd werden (zie bvb. deze tweet ). Maar goed, elk begin is moeilijk.  Verder ving ik opmerkingen op, o.a. van @gertdecooman dat " Als ik de stemtest van @demorgen doe, is er niet een partij die er uitspringt. En als ik de vinkjes van punten waarom ik niet geef in kruisjes verander, verandert ook d

Over kaduke telescopen en de glazen bol van Madame Soleil

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel " De Grote Politieke Peiling en De Stemming zijn kaduke telescopen " waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel " Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’ " van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken.  Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden. Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefen

A Frequentist and a Bayesian go to a bar ...

(Note: you might want to refresh this page on your browser if the equations don't render correctly.)  In the first installment of this blogpost , I illustrated that Fisher's rule of thumb of using $\frac{3}{n}$ for the upper limit of a 95% confidence/credible interval is a good approximation as soon a $n>=25$. This was inspired by a blogpost from John D. Cook on the subject. At the end I made a remark about something odd that happens when $n=1$. Fisher's rule of thumb results in 1, which is not very informative. The Bionomial solution is 0.95. When $n=1$ this is now an actual Bernoulli, i.e. a special case of the binomial if you will: $$P(S_1=0)= {1\choose 0}p^0(1-p)^1=0.05$$ $$= 1(1-p)=0.05$$ $$p=1-0.05=0.95.$$ Yet, in the Bayesian analysis, the result is p=0.78. Why? First let's recalculate that number in an even simpler manual way than I showed in the first installment of this blogpost. We know that the distribution we're interested in is the Bernoulli distri

A note on observing zero successes

Image
Say that you have a sample of size $n=1000$ and you observed $S_n=100$ successes. Traditionally you would use $\hat p=\frac{S_n}{n}=\frac{100}{1000}=0.1$ as a point estimate of the population proportion $p$. From a frequentist perspective you would probably also report a confidence interval: $$p_-=\hat p - z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.08140581,$$ and $$p_+=\hat p + z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.1185942,$$ using $z_\alpha=1.96$ for a 95% confidence interval (Assuming that the sample fraction is small, i.e. the universe size $N$ is large relative to $n$. Also, I will not go into how such a confidence interval needs to be interpreted.). So far, so good.  Now say you have observed zero successes, i.e. $S_n=0$, and you want to apply the procedure above. To start with, you can't because it violates the non-zero sample proportion assumption.   There are some alternatives such

A simple R/Shiny app to illustrate two properties of means and medians

 Recently I saw two interesting discussions on Twitter that had to do with means and medians and the relationship between both. Both were in Dutch. The first one was between Casper Albers (@CaAl) and Zihni Özdil (@ZihniOzdil) about student loans (see here ). The bottomline is dat Casper Albers reminded us that a positive stochastic variable can never have a median that is more than twice the mean. The second discussion was between Joël De Ceulaer (@jdceulaer), Karel Anthonissen (@KAnthonissen),  Youssef Kobo (@Youssef_Kobo) and Koen Fillet (@filletk) about young people buying houses and the support they get from their parents (see here ). That discussion also involved means and medians.  I mentioned that if a distribution has a finite variance, the absolute value of the difference between mean and median is at most equal to the standard deviation  (see here ).  These two properties are not well know and suprising to some. I will admit that I only learned about them many years after I h