Posts

Het aandeel blanco en ongeldige stemmen bij de gemeenteraadsverkiezingen in Vlaaanderen in 2024 is gedaald, maar niet overal even sterk.

Image
Enkele weken geleden maakte de Vlaamse overheid de publicatie van de fijnmazige stemresultaten van de afgelopen lokale en provinciale verkiezingen bekend . Als datawetenschapper was ik meteen geïnteresseerd in wat deze fijnmazige resultaten juist inhielden. Wat je dan in eerste instantie vaak doet is eenvoudige data exploratie eerder dan onmiddelijk beginnen te modelleren. In eerste instantie ging mijn aandacht naar de resultaten op het niveau van telbureaus en kiesbureaus, en de mate waarin de variatie tussen telbureaus en kiesbureaus binnnen een gemeente zich verhoudt tot de variatie tussen gemeenten. Al snel viel mijn oog op het feit dat het aandeel van blanco en ongeldige stemmen overal sterk was gedaald, maar de mate waarin sterk geografisch bepaald was. Vooreerst, het feit dat het aandeel blanco en ongeldige stemmen sterk gedaald is, hoeft niet te verrassen aangezien vanaf 2024 de stemplicht in Vlaanderen werd afgeschaft. Ik merk hier meteen op dat dit niet het geval was in Bruss...

Binpacking: an underused algorithm in the market research industry

In these days of ChatGPT  (Chat Generative Pre-Trained Transformer) and the quest for AGI (Artificial General Intelligence), many companies invest a lot in LLM’s (Large Language Models). This also the case for Ipsos, the Market Research company I work for. That said, we also pay attention to what happens outside of the world of AI, even if it might be less fashionable at the moment. One of those good-old algorithms we recently rediscovered is the "bin packing” algorithm".  I will admit that I had forgotten about these types of algorithms since the “linear programming and operational research” class when I studied computer science back in the early nineties. But recently we had to solve a problem in Ipsos that led to an age-old algorithm that is used a lot in logistics, chip design  and cloud computing, but, to my knowledge, not so much in the market research industry. If you are aware of other applications in market research, feel free to add them in the comments section ...

Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking

Image
 Het is nu zondag 11/08/2024 en we naderen het einde van de Olympische Spelen 2024. Dit is het moment waarop lijstjes worden gemaakt van de landen met de meeste medailles. Dit jaar ziet het er naar uit dat de Verenigde Staten, China, Groot-Brittannië, Frankrijk en Australië de top 5 zullen uitmaken. Net zoals dat bij de vorige spelen zo was, zal er opgemerkt worden dat de Verenigde Staten en vooral China veel medailles verzamelen omdat ze een groot aantal inwoners hebben. Het Belgische Sporza (Sporza is de merknaam voor alle sportuitzendingen van de VRT op radio, televisie, internet en multimedia.) verwoordde het tijdens de Spelen van Tokio in 2021 als volgt: China prijkt bovenaan de officiële medaillestand van de Olympische Spelen. Een evidentie, want met 1,4 miljard inwoners heeft het land een grote visvijver vol talent. Hoe zou de medaillestand eruitzien als we de oefening maken per aantal inwoners? Wat blijkt: een dwergstaat schittert in dat geval helemaal bovenaan. De dw...

How Accurate Were the Pollsters in Flanders? You be the Judge

Image
Last weekend, elections were held in Belgium. Not only for the European Parliament, but there were also federal and regional elections. As usual some people were quick to dismiss the polls. Isabel Albers,  General Editor of De Tijd / L'Echo, made it clear on Twitter that she was not impressed: Some losing politicians made similar claims. Groen (the flemish Green party)  co-chair Nadia Naji described her party's results as better than what the polls had predicted. Let's have a look at that claim: In 5 of the last 6 polls the true result was well within the usual confidence intervals (more on confidence intervals later). Only in the most recent one the true result was just outside of the 95% conidence interval, but notice that, to some extent, this is because the sample size in the last poll was 2000, which is higher than usual. As the blue line suggests, if you average the most recent polls, you would come very close to the actual election result. (More on poll averaging lat...

'Les extrêmes se touchent', maar net iets minder met Jaccard en in twee dimensies

Image
Vorige week lanceerde De Morgen hun stemtest . Deze stemtest, van de hand van Ann De Boeck, Stavros Kelepouris, Jan Straetmans en Joris Heijkant, valt op door haar aantrekkelijke eenvoud. In plaats van allerlei ingewikkelde berekeningen te doen is hun insteek dat je maar best kan kijken naar het stemgedrag van de partijen in de Kamer, in het Vlaams Parlement en in het Europees Parlement en dan gewoon tellen hoeveel overeenstemmingen er zijn met de keuze van de deelnemer van de stemtest.  Het begon wel met een domper. Al snel na de lancering doken er fouten op op de sociale media. Zo wees @_TomGarcia_ op Twitter dat sommige standpunten van partijen initieel niet klopten en naderhand verbeterd werden (zie bvb. deze tweet ). Maar goed, elk begin is moeilijk.  Verder ving ik opmerkingen op, o.a. van @gertdecooman dat " Als ik de stemtest van @demorgen doe, is er niet een partij die er uitspringt. En als ik de vinkjes van punten waarom ik niet geef in kruisjes v...

Over kaduke telescopen en de glazen bol van Madame Soleil

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel " De Grote Politieke Peiling en De Stemming zijn kaduke telescopen " waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel " Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’ " van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken.  Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden. Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefen...

A Frequentist and a Bayesian go to a bar ...

(Note: you might want to refresh this page on your browser if the equations don't render correctly.)  In the first installment of this blogpost , I illustrated that Fisher's rule of thumb of using $\frac{3}{n}$ for the upper limit of a 95% confidence/credible interval is a good approximation as soon a $n>=25$. This was inspired by a blogpost from John D. Cook on the subject. At the end I made a remark about something odd that happens when $n=1$. Fisher's rule of thumb results in 1, which is not very informative. The Bionomial solution is 0.95. When $n=1$ this is now an actual Bernoulli, i.e. a special case of the binomial if you will: $$P(S_1=0)= {1\choose 0}p^0(1-p)^1=0.05$$ $$= 1(1-p)=0.05$$ $$p=1-0.05=0.95.$$ Yet, in the Bayesian analysis, the result is p=0.78. Why? First let's recalculate that number in an even simpler manual way than I showed in the first installment of this blogpost. We know that the distribution we're interested in is the Bernoulli distri...