Het aandeel blanco en ongeldige stemmen bij de gemeenteraadsverkiezingen in Vlaaanderen in 2024 is gedaald, maar niet overal even sterk.

Enkele weken geleden maakte de Vlaamse overheid de publicatie van de fijnmazige stemresultaten van de afgelopen lokale en provinciale verkiezingen bekend. Als datawetenschapper was ik meteen geïnteresseerd in wat deze fijnmazige resultaten juist inhielden. Wat je dan in eerste instantie vaak doet is eenvoudige data exploratie eerder dan onmiddelijk beginnen te modelleren. In eerste instantie ging mijn aandacht naar de resultaten op het niveau van telbureaus en kiesbureaus, en de mate waarin de variatie tussen telbureaus en kiesbureaus binnnen een gemeente zich verhoudt tot de variatie tussen gemeenten. Al snel viel mijn oog op het feit dat het aandeel van blanco en ongeldige stemmen overal sterk was gedaald, maar de mate waarin sterk geografisch bepaald was. Vooreerst, het feit dat het aandeel blanco en ongeldige stemmen sterk gedaald is, hoeft niet te verrassen aangezien vanaf 2024 de stemplicht in Vlaanderen werd afgeschaft. Ik merk hier meteen op dat dit niet het geval was in Brussel en Wallonië. 

Ik heb mijn data-exploratie oefening proberen samen te vatten in een grafiek met een benaderde verdeling van het percentage blanco of ongeldige stemmen over de telbureaus van de gemeenten met de laagste/middelste/hoogste 9 percentage blanco stemmen. Ik benadruk dat het benaderde verdelingen zijn. De bedoeling is immers niet om exacte resultaten te tonen, maar wel om snel inzicht te krijgen in de patronen in de data. Dat is ook de reden waarom ik niet alle gemeenten toon. Dit zou namelijk onoverzichtelijk zijn, en de ware patronen verdoezelen. Door de 9 hoogste, de 9 laagste en de 9 middelste te tonen, krijgen we we wel een globaal beeld van wat er aan de hand is. Als je je afvraagt, waarom 9 en niet 10, dan is dat gewoon omdat 27 grafiekjes nog net binnen een blad pasten en 30 niet meer. Pragmatiek is nooit ver weg in data wetenschap!


Het valt onmiddelijk op dat de bovenste 8 uit de Vlaamse rand rond Brussel komen, en de negende, de faciliteitengemeente Voeren is. De middelste en de laatste gemeenten zitten relatief dicht bij elkaar. Nogmaals wil ik benadrukken dat dit slechts een benaderde voorstelling is om algemene patronen te herkennen eerder dan exacte resultaten weer te geven. 


De logische vervolgvraag is om te kijken wat het aandeel blanco/ongeldig was bij de gemeenteraadsverkiezingen van 2018. Helaas hebben we voor 2018 niet meer het meer gedetaillieerd niveau, maar per gemeente kunnen we wel een vergelijking maken. Bemerk dat je in de praktijk rekening moet houden met fusies van gemeenten en met het feit dat in sommige gemeenten waar maar één lijst op kwam er geen formele verkiezingen werden gehouden. 


We plotten nu de gemeenten in een spreidingsdiagram waarbij we het percentage blanco/ongeldig in 2018 op de x-as zetten en het percentage blanco/ongeldig in 2024 op de y-as. We trekken een zwarte stippellijn waar beide percentages gelijk zijn. Gemeenten die boven deze lijn zitten hebben in 2024 een hoger percentage blanco/ongeldig dan in 2018. Gemeenten onder deze lijn hebben een daling gekend. We zien dat alle gemeenten onder deze zwarte stippellijn liggen, wat wil zeggen dat in alle Vlaamse gemeenten het percentage blanco/ongeldig in 2024 gedaald is t.o.v. 2018.  Zoals gezegd, dit hoeft niet te verbazen gezien dat in 2024 er geen stemplicht was.

We fitten meteen een heel eenvoudig model waarin we het percentage blanco/ongeldig van 2024 proberen te verklaren door het percentage blanco/ongeldig in 2018. Ook hier doen we dat niet in een porging om het percentage blanco/ongeldig in 2024 zo goed mogelijk te verklaren, maar eerder om het patroon van verandering tussen 2018 en 2024 gestalte te geven. 

We doen dit met Bayesiaans regressie. Elders op deze blog schreef ik al over de Bayesiaanse benadering in de statistiek (zie Nederland: Allicht het Meest Succesvolle Olympische Land van Europa per Hoofd van de Bevolking, A note on observing zero successes en A Frequentist and a Bayesian go to a bar ...). De grafiek toont de regressielijn van de Bayesiaanse analyse waarbij we gebruik maakten van zwak-informatieve priors zodat we dicht bij de oplossing uitkomen in een klassieke frequentistische benadering:

$$\text{perc_blanco_ongeldig_2024}_i = \beta_0 + \beta_1 \cdot \text{perc_blanco_ongeldig_2018}_i + \varepsilon_i$$

$$\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$$

 Hieronder vind je de samenvattende grafiek:



De geschatte coëficiënt die de helling van de regressielijn beschrijft bedraagt 0.3808, wat wil zeggen dat voor elk bijkomend percent blanco/ongeldig in 2018 er slechts 0.3808% bijkomt in 2024. Het feit dat deze coëfficiënt kleiner is dan 1is een illustratie van het feit dat het percentage blanco/ongeldig in 2024 lager ligt dan in 2018. De rode band rond de regressielijn illustreert dat er wat onzekkerheid is over de exacte waard van die helling, maar dat valt   al bij al mee. Technisch gesproken zijn dit credible intervals of geloofwaardigheidsintervallen, i.e. de Bayesiaanse variant van de klassieke betrouwbaarheidsintervallen. Een geloofwaardigheidsinterval (credible interval in het Engels) is een interval waarin een onbekende parameter met een bepaalde waarschijnlijkheid ligt, gegeven de geobserveerde data en de gekozen prior (in dit geval een niet informatieve prior). Je zou die rode band kunnen interpreteren als het gebied waarin de regressielijn met 95% geloofwaardigheid zou kunnen liggen. Ik moet toegeven dat de nederlandse Bayesiaase terminologie wat vreemd klinkt.

De blauwe band is een voorspellingsinterval en geeft een schatting van het bereik waarin een nieuwe waarneming waarschijnlijk zal vallen, gegeven de onzekerheid in zowel het model als de toekomstige data. Het geeft ons een idee van welke waarden we voor het percentage blanco/ongeldig in 2024, onder dit eenvoudig model, kunnen verwachten, gegeven het percentage blanco/ongeldig in 2018. Ik heb de namen van de gemeenten die buiten het voorspellingsinterval erbij afgedrukt. De gemeenten onder de blauwe band zijn deze gemeenten die in 2024 een lager percentage blanco/ongeldig hebben dan je zou verwachten op basis van het percentage blanco/ongeldig in 2018, en het model. Het laatste gedeelte van deze zin is heel belangrijk: als je een ander model zou nemen zou je allicht andere gemeenten hebben die er uit springen. Hoe dan ook, het interessante in deze grafiek is dat de gemeenten die boven de blauwe band uitsteken vaak Brusslse randgemeenten zijn of meer algemeen gemeenten die dicht bij de taalgrens  zitten.

Dit model, verklaart ongeveer 38% van de variantie. Dat is niet bijster veel, maar het model is dan ook ontzettend eenvoudig, nl. enkel kijkend naar het percentage blanco/ongeldig in 2018. Met wat bijkomende informatie over de stedelijkheid/landelijkheid van de gemeenten, of over de socio-demografische samenstelling van de gemeenten zou je dit model ongetwijfeld aardig wat kunnen verbeteren. De grafiek hierboven  suggereert dat je allicht een beter model zou krijgen als je rekening zou kunnen houden met de nabijheid van de taalgrens of een andere proxy die  aangeeft of er veel franstaligen in een gemeente wonen. 

In het begin van deze blogpost gaven we al een voorbeeld in die riching, en hieronder tekenen we een kaartje met het percentage blanco/ongeldig in 2024 uitgedrukt als een index waarbij 100 het percentage blanco/ongeldig in 2018 voorstelt.


Het kaartje illustreert dat alle gemeenten in 2024 een lager percentage blanco/ongeldig hadden dan in 2018, maar in grote delen van Vlaanderen is die daling veel spectaculairder dan op andere plaatsen. Vooral gemeenten rond Brussel en in faciliteitengemeenten is de daling al bij al klein (index 80 in het fel rood op de kaart). We mogen ons natuurlijk niet bezondigen aan een ecologische fout, maar 

het kaartje suggereert toch dat er een aantal Franstaligen in Vlaanderen zich nog niet voldoende realiseerden dat, in tegenstelling to Brussel en Wallonië, in Vlaanderen de stemplicht voor de gemeenteraadsverkiezingen van 2024 was afgeschaft.

Dit is uiteraard slechts een hypothese, en er zijn veel alternatieve verklaringen mogelijk, maar toch vraag ik me af er ook hardere indicaties zijn die in die richting wijzen. Als je weet hebt van dergelijk onderzoek, voeg dan gerust commentaar hieronder.

Tenslotte, de gegevens die Vlaanderen hier ter beschikking stelt zijn bijzonder interessant. Helaas kon ik geen digitale equivalent van de resultaten voor Brussel en Wallonië vinden, want een analyse met zowel Vlaamse als Franstalige en Brusselse gemeenten zou zeer waardevol kunnen zijn, gegeven dat enkel in  Vlaanderen de stemplicht werd afgeschaft. Als je weet hebt van digitale data van de verkiezingsuitslagen in Wallonië en Brussel, laat dat gerust weten in de commentaar sectie hieronder!  





Comments

Popular posts from this blog

(small) samples versus alternative (big) data sources

Market Research and Big Data: A difficult relationship

Why The Nielsen Company is an #mrx Big Data company avant la lettre