Posts

Binpacking: an underused algorithm in the market research industry

In these days of ChatGPT  (Chat Generative Pre-Trained Transformer) and the quest for AGI (Artificial General Intelligence), many companies invest a lot in LLM’s (Large Language Models). This also the case for Ipsos, the Market Research company I work for. That said, we also pay attention to what happens outside of the world of AI, even if it might be less fashionable at the moment. One of those good-old algorithms we recently rediscovered is the "bin packing” algorithm".  I will admit that I had forgotten about these types of algorithms since the “linear programming and operational research” class when I studied computer science back in the early nineties. But recently we had to solve a problem in Ipsos that led to an age-old algorithm that is used a lot in logistics, chip design  and cloud computing, but, to my knowledge, not so much in the market research industry. If you are aware of other applications in market research, feel free to add them in the comments section ...

Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking

Image
 Het is nu zondag 11/08/2024 en we naderen het einde van de Olympische Spelen 2024. Dit is het moment waarop lijstjes worden gemaakt van de landen met de meeste medailles. Dit jaar ziet het er naar uit dat de Verenigde Staten, China, Groot-Brittannië, Frankrijk en Australië de top 5 zullen uitmaken. Net zoals dat bij de vorige spelen zo was, zal er opgemerkt worden dat de Verenigde Staten en vooral China veel medailles verzamelen omdat ze een groot aantal inwoners hebben. Het Belgische Sporza (Sporza is de merknaam voor alle sportuitzendingen van de VRT op radio, televisie, internet en multimedia.) verwoordde het tijdens de Spelen van Tokio in 2021 als volgt: China prijkt bovenaan de officiële medaillestand van de Olympische Spelen. Een evidentie, want met 1,4 miljard inwoners heeft het land een grote visvijver vol talent. Hoe zou de medaillestand eruitzien als we de oefening maken per aantal inwoners? Wat blijkt: een dwergstaat schittert in dat geval helemaal bovenaan. De dw...

How Accurate Were the Pollsters in Flanders? You be the Judge

Image
Last weekend, elections were held in Belgium. Not only for the European Parliament, but there were also federal and regional elections. As usual some people were quick to dismiss the polls. Isabel Albers,  General Editor of De Tijd / L'Echo, made it clear on Twitter that she was not impressed: Some losing politicians made similar claims. Groen (the flemish Green party)  co-chair Nadia Naji described her party's results as better than what the polls had predicted. Let's have a look at that claim: In 5 of the last 6 polls the true result was well within the usual confidence intervals (more on confidence intervals later). Only in the most recent one the true result was just outside of the 95% conidence interval, but notice that, to some extent, this is because the sample size in the last poll was 2000, which is higher than usual. As the blue line suggests, if you average the most recent polls, you would come very close to the actual election result. (More on poll averaging lat...

'Les extrêmes se touchent', maar net iets minder met Jaccard en in twee dimensies

Image
Vorige week lanceerde De Morgen hun stemtest . Deze stemtest, van de hand van Ann De Boeck, Stavros Kelepouris, Jan Straetmans en Joris Heijkant, valt op door haar aantrekkelijke eenvoud. In plaats van allerlei ingewikkelde berekeningen te doen is hun insteek dat je maar best kan kijken naar het stemgedrag van de partijen in de Kamer, in het Vlaams Parlement en in het Europees Parlement en dan gewoon tellen hoeveel overeenstemmingen er zijn met de keuze van de deelnemer van de stemtest.  Het begon wel met een domper. Al snel na de lancering doken er fouten op op de sociale media. Zo wees @_TomGarcia_ op Twitter dat sommige standpunten van partijen initieel niet klopten en naderhand verbeterd werden (zie bvb. deze tweet ). Maar goed, elk begin is moeilijk.  Verder ving ik opmerkingen op, o.a. van @gertdecooman dat " Als ik de stemtest van @demorgen doe, is er niet een partij die er uitspringt. En als ik de vinkjes van punten waarom ik niet geef in kruisjes v...

Over kaduke telescopen en de glazen bol van Madame Soleil

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel " De Grote Politieke Peiling en De Stemming zijn kaduke telescopen " waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel " Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’ " van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken.  Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden. Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefen...

A Frequentist and a Bayesian go to a bar ...

(Note: you might want to refresh this page on your browser if the equations don't render correctly.)  In the first installment of this blogpost , I illustrated that Fisher's rule of thumb of using $\frac{3}{n}$ for the upper limit of a 95% confidence/credible interval is a good approximation as soon a $n>=25$. This was inspired by a blogpost from John D. Cook on the subject. At the end I made a remark about something odd that happens when $n=1$. Fisher's rule of thumb results in 1, which is not very informative. The Bionomial solution is 0.95. When $n=1$ this is now an actual Bernoulli, i.e. a special case of the binomial if you will: $$P(S_1=0)= {1\choose 0}p^0(1-p)^1=0.05$$ $$= 1(1-p)=0.05$$ $$p=1-0.05=0.95.$$ Yet, in the Bayesian analysis, the result is p=0.78. Why? First let's recalculate that number in an even simpler manual way than I showed in the first installment of this blogpost. We know that the distribution we're interested in is the Bernoulli distri...

A note on observing zero successes

Image
Say that you have a sample of size $n=1000$ and you observed $S_n=100$ successes. Traditionally you would use $\hat p=\frac{S_n}{n}=\frac{100}{1000}=0.1$ as a point estimate of the population proportion $p$. From a frequentist perspective you would probably also report a confidence interval: $$p_-=\hat p - z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.08140581,$$ and $$p_+=\hat p + z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.1185942,$$ using $z_\alpha=1.96$ for a 95% confidence interval (Assuming that the sample fraction is small, i.e. the universe size $N$ is large relative to $n$. Also, I will not go into how such a confidence interval needs to be interpreted.). So far, so good.  Now say you have observed zero successes, i.e. $S_n=0$, and you want to apply the procedure above. To start with, you can't because it violates the non-zero sample proportion assumption.   There are some alterna...