Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking

August 11, 2024

Het is nu zondag 11/08/2024 en we naderen het einde van de Olympische Spelen 2024. Dit is het moment waarop lijstjes worden gemaakt van de landen met de meeste medailles. Dit jaar ziet het er naar uit dat de Verenigde Staten, China, Groot-Brittannië, Frankrijk en Australië de top 5 zullen uitmaken.

Net zoals dat bij de vorige spelen zo was, zal er opgemerkt worden dat de Verenigde Staten en vooral China veel medailles verzamelen omdat ze een groot aantal inwoners hebben. Het Belgische Sporza (Sporza is de merknaam voor alle sportuitzendingen van de VRT op radio, televisie, internet en multimedia.) verwoordde het tijdens de Spelen van Tokio in 2021 als volgt:

China prijkt bovenaan de officiële medaillestand van de Olympische Spelen. Een evidentie, want met 1,4 miljard inwoners heeft het land een grote visvijver vol talent. Hoe zou de medaillestand eruitzien als we de oefening maken per aantal inwoners? Wat blijkt: een dwergstaat schittert in dat geval helemaal bovenaan.

De dwergstaat in kwestie was toen San Marino dat 3 medailles haalde op ongeveer 34,000 inwoners. San Marino werd gevolgd door Bermuda en Grenada, die elk één medaille haalden met respectievelijk 64,000 en 112,000 inwoners.

Als we deze oefening opnieuw doen voor de spelen van Parijs in 2024 is de top drie Grenada, Dominica en Saint Lucia. In termen van aantal medailles per capita was Grenada derde in Tokio en eerste in Parijs. Is Grenada een Olympische Powerhouse? Laat ons eens kijken naar wat er gebeurd is met de nummer één van Tokio, San Marino. In Parijs haalde San Marino geen enkele medaille, en dus eindigt de voormalige nummer één op de allerlaatste plaats (weliswaar ex aequo met 133 andere landen). Is San Marino van een sport Walhalla in 4 jaar een sport woestenij geworden? Neen, intuïtief voelen we aan dat het toeval hier een rol speelt. Stel dat Vaticaan Stad zou meedoen aan de Olympische Spelen en ze zouden bovendien een medaille behalen, dan zou met Vaticaan Stad, met z'n 764 inwoners, moeiteloos het halen van San Marino en Bermuda. Geen medaille halen zou hen terug katapulteren naar de laatste plaats.

De website medalspercapita is een website die de medaille-stand bijhoudt en deze uitdrukt in termen van bevolkingsaantallen en zelfs per GDP. Hier is de rangschikking als we medailles per capita gebruiken (het gaat hier om de stand op 10/8/2024, dus vlak voor het afsluiten van de spelen):

We zien de top 3 die daarnet al werd vermeld. Daarna volgen Nieuw-Zeeland, Jamaica, Cape Verde, Australië, Moldavië, Nederland en Hongarije. Een mix van relatief kleinere en relatief grotere landen.

Het is een legitieme vraag om op zoek te gaan naar een methode die rekening houdt met bevolkingsgrootte, maar ook rekening houdt met het toeval. In de statistiek spreken we van onzekerheid en van onzekerheidskwantificatie (in het Engels uncertainty quantification). Er zijn verschillende methoden om dat te doen. Hier probeer ik de zaak te illustreren met een heel eenvoudige Bayesiaanse benadering. Het zou ons te ver leiden om hier een overzicht te geven van Bayesiaanse statistiek, maar voor de liefhebbers kan ik wel verwijzen naar twee blogposts die ik hierover (in het Engels) schreef, met name, A note on observing zero successes en A Frequentist and a Bayesian go to a bar ....

In deze toepassing make we gebruik van een zogenaamde weakly informative prior waarbij we ervan uitgaan dat dat het aantal medailles per inwoner niet erg hoog is. Als we naar alle medailles kijken die in Parijs gehaald zijn en we delen dit door het totale aantal inwoners dan komen we op 0.0000001040871 uit. Laat ons dit $r$ noemen. Omdat we deze kennis eigenlijk halen uit de data zelf gaan we aardig wat variatie toelaten. Concreet wil dit zeggen dat als we weinig bijkomende evidentie vinden (omdat er weinig inwoners zijn in een land) dan gaan we een schatting maken die dichter bij dat algemene gemiddelde ligt. Als we veel evidentie hebben (omdat het om grote landen gaat zoals China of India) gaan we een schatting maken die verder van het algemene gemiddelde zal liggen en dichter bij de score van het land zal liggen.

Een veelgebruikte verdeling voor dit soort gegevens is de Gamma-verdeling. Deze verdeling heeft twee parameters: $\alpha$ (de vormparameter) en $\beta$ (de schaalparameter). De Gamma-verdeling wordt vaak genoteerd als

$$\Gamma(\alpha, \beta),$$

waarbij we kiezen voor:

$$\alpha = 2,$$

Een vormparameter gelijk aan 2 betekent dat we een zwakke informatieve prior gebruiken, i.e. dat we enige variatie rondom het gemiddelde accepteren, en,

$$\beta=\frac{\alpha}{r}.$$

Met deze schaalparameter wordt

$$\frac{\alpha}{\beta}=r$$

de gemiddelde waarde van de Gamma-verdeling.

In dat geval wordt de update regel om tot een gecorrigeerde score te komen heel eenvoudig:

$$\text{new_medal_rate} =\frac{\alpha + \text{nr_of_medals}}{\beta + \text{population}}$$

Op basis daarvan werd een nieuwe rangschikking gemaakt:

We zien de kleinere "toevalslanden" verdwijnen ten voordele van de wat grotere landen die beter gescoord hebben dan je op basis van het aantal inwoners zou verwachten. Geen China, laat staan Indië. Zelfs geen Verenigde staten. We zien wel dat Nederland op de tweede plaats prijkt en enkel Australië moet laten voorgaan. Daarmee is Nederland allicht de nummer één van Europa!

Het woord allicht slaat op het feit dat er op de laatste dag nog wat medailles te rapen zijn, maar vooral omdat het resultaat van de analyse in meer of minder mate zal afhangen van de keuze die ik gemaakt hebt, zelfs al heb ik weakly informative priors gebruikt, Toch mag dit niet gezien worden als een volledig subjectieve keuze. Eén van de voordelen van de Bayesiaanse benadering is juist dat assumpties heel expliciet worden gemaakt, terwijl in meer traditionele methoden de assumpties evengoed aanwezig zijn maar dan minder expliciet.

Search This Blog

All Things Data Science

Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking

Comments

Post a Comment

Popular posts from this blog

(small) samples versus alternative (big) data sources

Why The Nielsen Company is an #mrx Big Data company avant la lettre

Market Research and Big Data: A difficult relationship