'Les extrêmes se touchent', maar net iets minder met Jaccard en in twee dimensies

Vorige week lanceerde De Morgen hun stemtest. Deze stemtest, van de hand van Ann De Boeck, Stavros Kelepouris, Jan Straetmans en Joris Heijkant, valt op door haar aantrekkelijke eenvoud. In plaats van allerlei ingewikkelde berekeningen te doen is hun insteek dat je maar best kan kijken naar het stemgedrag van de partijen in de Kamer, in het Vlaams Parlement en in het Europees Parlement en dan gewoon tellen hoeveel overeenstemmingen er zijn met de keuze van de deelnemer van de stemtest. 

Het begon wel met een domper. Al snel na de lancering doken er fouten op op de sociale media. Zo wees @_TomGarcia_ op Twitter dat sommige standpunten van partijen initieel niet klopten en naderhand verbeterd werden (zie bvb. deze tweet). Maar goed, elk begin is moeilijk. 

Verder ving ik opmerkingen op, o.a. van @gertdecooman dat "Als ik de stemtest van @demorgen doe, is er niet een partij die er uitspringt. En als ik de vinkjes van punten waarom ik niet geef in kruisjes verander, verandert ook de ranking gevoelig." Het is inderdaad jammer dat men niet meer zorg heeft besteed aan 'geen mening', en dit zowel bij de deelnemers van de stemtest, als bij het standpunt van de partijen. Een onthouding werd daar samengenomen met de tegenstemmers. Ik begrijp dat men de zaak zo eenvoudig als mogelijk wou houden, maar deze keuze heeft wel grote gevolgen (meer daarover straks). 

Het feit dat CD&V en Open VLD er nooit uitspringen mag alvast niet verbazen. Deze partijen vertoonden hetzelfde stemgedrag op alle geselecteerde stemmingen. Dat is op zich niet vreemd omdat beide partijen zowel in de Vlaamse als in de federale regering zitten. Je zou kunnen argumenteren dat De Morgen de kans gemist heeft om het onderscheid te maken tussen beide partijen, maar je zou ook kunnen argumenteren dat dit gelijklopend stemgedrag een politieke realiteit is waar de deelnemers van de stemtest nu op gewezen worden. 

Als je de zaak van dichterbij bekijkt dan zie je dat, als je de voor/tegen benadering van De Morgen neemt, er heel wat partijen op elkaar lijken. Hieronder vind je een matrix van het aantal overeenstemmingen tussen twee partijen:

Er waren 26 stellingen, en hierboven lezen we dat CD&V en open VLD 26 overeenstemmingen hebben, wat wil zeggen dat ze, op de geselecteerde stemmingen, steeds hetzelfde hebben gestemd. Je ziet ook dat Vooruit vrij dicht bij dit duo zit, met 22 overeenstemmingen. Dit is niet verwonderlijk omdat het hier alle drie om centrum partijen gaat. Wat meer verbazing kan oproepen is de kolom van Vlaams Belang (of de rij van PVDA). Vlaams Belang heeft veel overeenstemming met NVA (17), onmiddellijk gevolgd door PVDA. Dat laatste kan wel verrassend overkomen omdat Vlaams Belang als radicaal rechts wordt beschouwd en PVDA als radicaal links. 

En dit brengt ons meteen met een verwondering die vaak werd geuit n.a.v. deze stemtest, nl. "Les extrêmes se touchent". Dit werd ondermeer verwoord door @sigridschollen in de volgende tweet:


Eén van de redenen waaraan dat ligt is dat de makers van de stemtest een overeenkomst op een tegen stem voor evenveel laten meetellen als een overeenkomst op een ja stem. Achter een tegenstem kan er van alles schuil gaan. Zo kan de ene partij tegen stemmen omdat een voorstel te ver gaat, terwijl een andere partij ook tegen kan stemmen, maar omdat het voorstel net niet ver genoeg gaat. Op die manier vinden extremen elkaar in de tegenstem. Dat kan ook gebeuren door tactisch stemgedrag of meerderheid/oppositie stemgedrag. In politieke wetenschappen spreekt men soms van  "horseshoe theory" en van "strange bedfellows" om dit soort fenomenen te beschrijven. Over de "horsehoe" straks meer.   

Stel je voor dat je enkel de positieve overeenkomsten zou tellen in de matrix hierboven (i.e. je zou enkel tellen hoe vaak twee partijen VOOR hetzelfde voorstel hebben gestemd), dan zou je het volgende resultaat krijgen:


Daar waar CD&V en Open VLD 26 overeenkomsten hadden hebben ze nu er nog steeds 23. Zo ook Vooruit t.o.v. dit duo: slechts een kleine daling van 22 naar 19. Als je echter naar de kolom van Vlaams Belang en de rij van PVDA gaat kijken dan merk je daar wel forse dalingen op.  De overeenstemming van Vlaams Belang met PVDA tuimelt van 16 naar 4. De overeenstemming tussen Vlaams Belang en NVA neemt ook een stevige duik, nl. van 17 naar 7.

Volledigheidshalve geeft ik hier de verschillen voor alle partij combinaties in matrix vorm:


Dit is een Data Science blog, dus moeten  er enkele obligate formules in ;-). Het tellen op de manier waarop De Morgen doet, nl. zowel een overeenkomst in het VOOR stemmen als in het TEGEN stemmen mee te laten tellen, komt overeen met de teller van de Simple Matching Coefficient (SMC):

$$SMC(i, j) = \frac{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = x_{jl})}}{{m}},$$

hierin stelt $SMC(i,j)$ de Simple Matching Coefficient tussen partij $i$ en partij $j$ voor. $x_{il}$ geeft aan of partij $i$ ja stemde (1) of niet (0). Voor partij $j$ is dat   $x_{jl}$. Het aantal stellingen is hier $m$. $\mathbb{I}$ staat voor de indicatorfunctie en geeft de waarde 1 als de uitdrukking tussen haakjes waar is en 0 als de uitdrukking niet waar is. Bij de SMC wordt bijkomend gedeeld door het aantal variabelen of kenmerken (in dit geval stellingen) waarmee gewerkt wordt. Bemerk dat voor bepaalde toepassingen (zie straks) men liever werkt met dissimilariteiten dan met similariteiten, waardoor men in de praktijk gebruik maakt van:

$$ D(i, j) = 1 - SMC(i, j).$$

De alternatieve manier waarop enkel de positieve overeenkomsten worden geteld heeft enige verwantschap met de Jaccard afstand:

$$ J(i, j) = 1 - \frac{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = 1 \land x_{jl} = 1)}}{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = 1 \lor x_{jl} = 1)}}, $$

hierin stelt $J(i,j)$ de Jaccard afstand tussen partij $i$ en partij $j$ voor. $\land$ en $\lor$ staan respectievelijk voor de logische EN en de logische OF operator. De Jaccard afstand wordt nogal eens gebruikt in cluster analyse op binaire data, net om dit soort van situaties te vermijden.  

We kunnen dus de twee varianten van het tellen van overeenkomsten tussen partijen ook uitdrukken als afstanden of dissimilariteiten (over het verschil tussen de twee gaan we hier niet verder op in). Voor de dissimilariteit op basis van de SMC wordt dit:


Voor de dissimilariteit van Jaccard wordt dit:

Analoog met daarnet zien we dat Jaccard de afstand tussen Vlaams Belang en PVDA groter maakt. Hetzelfde geldt voor de afstand tussen Vlaams Belang en N_VA. Aangezien CD&V en Open VLD op alle geselecteerde gevallen hetzelfde stemden is het logisch dat zowel de SMC dissimilariteit als de Jaccard dissimilariteit 0 is.  De nabijheid van Vooruit bij het duo CD&V en Open VLD zien we hier ook terug. Kortom, we zien het equivalente van daarnet, alleen zijn de maten nu gestandaardiseerd en uitgedrukt als een dissimilariteit.  

Op deze dissimilariteitsmatrices kunnen we multidimensional scaling (MDS) toepassen. We gaan hier geen technische uitleg geven over deze techniek, maar wel een intuïtieve idee geven van wat je met deze methode kan doen: Vroeger, toen mensen nog landkaarten gebruikten, stond op de achterkant van zo'n kaart soms een (driekhoeks-)matrix met de afstanden tussen de verschillende steden van een land. Stel dat je enkel die matrix hebt, dan laat MDS toe om op basis van de onderlinge afstanden de steden te tonen op een spreidingsdiagram (soms puntenwolk en in het Engels een scatter diagram genoemd). Je zal de oplossing soms moeten roteren of inverteren maar in veel gevallen lukt dat aardig en "herken" je de oorspronkelijke kaart. Op zich heeft deze toepassing weinig nut omdat je reeds over een kaart beschikt. MDS is nuttig in die gevallen dat je je gegevens als afstanden kan uitdrukken en je daaruit een 'kaart' wil afleiden. Overigens, in het geval van een kaart en afstanden tussen steden weten we op voorhand dat we een 2-dimensionele oplossing zoeken. In het geval van afstanden in het algemeen weten we dat niet op voorhand. In de stemtest van de Morgen worden de partijen van de meeste gelijkende (met de deelnemer) naar de minst gelijkende gesorteerd. Impliciet gaat men hier dus uit van een één-dimensionele oplossing. 

Als we een één-dimensionele MDS oplossing vragen dan krijgen we voor de SMC dissimilariteit:

en voor de Jaccard dissimilariteit:

Op het eerste zicht lijken die twee oplossingen heel verschillend, maar MDS oplossingen zijn schaal-invariant en mogen geroteerd worden. Je mag dus ook, bvb., de eerste oplossing van onder naar boven nemen. Die volgorde lijkt dan wel op die van Jaccard als je die laatste van boven naar beneden neemt. Het valt wel op dat Groen hier haasje over doet. Het valt ook op dat met SMC groen nu dichter bij het duo CD&V en Open VLD staat. We hadden al aangestipt dat de positie van PVDA t.o.v. Vlaams Belang en NV_A merkwaardig was, maar om PVDA geflankeerd te zien door Vlaams Belang en NV_A is wel heel vreemd.  Blijkbaar is er iets in de dissimilariteitsmatrix dat niet voldoende kan worden uitgedrukt in een één-dimensionele oplossing. Er zijn nog andere redenen om naar een 2-dimensionele oplossing te gaan kijken. Dit heeft o.a. te maken met proportie verklaarde variantie, maar het zou ons in deze blogpost te ver leiden om daar verder op in te gaan. Om eenzelfde reden tonen we ook geen 3-dimensionele oplossing. Maar alvorens we naar de 2-dimensionele oplossing kijken, stellen we hier toch ook vast dat het gebruik van de Jaccard afstand ervoor zorgt dat de afstand (in één dimensie) tussen Vlaams Belang enerzijds en NV-A en PVDA anderzijds, groter wordt in vergelijking met de SMC dissimilariteit.    De Jaccard oplossing lijkt ook net iets beter de nabijheid tussen het duo CD&V-Open VLD en Vooruit te capteren. 

Hoe dan ook, hieronder de twee oplossingen in 2-dimensies. Eerst deze met de SMC dissimilariteit en dan deze met Jaccard. 



Om de twee oplossingen eenvoudig te kunnen vergelijken heb ik zelf de oplossing zodanig geroteerd dat Vlaams Belang steeds links staat en Groen steeds rechts. Achteraf bekeken had ik dat beter omgekeerd gedaan ;-). Anderzijds wil ik niet suggereren dat de X-as als een rechts-links dimensie moet worden geïnterpreteerd, dus misschien is het niet eens zo slecht op die manier. 

   


We zien in beide gevallen dat door het toevoegen van de tweede dimensie het verschil tussen Vlaams Belang en PVDA groter wordt, zo ook het verschil tussen Vlaams Belang en PVDA, al is het in een andere richting (op die tweede dimensie). Het toevoegen van een tweede dimensie lost voor een gedeelte het  "horseshoe" probleem van daarnet op. We zien dat dit effect bij Jaccard iets prominenter is dan bij SMC. Ik durf dus een lichte voorkeur uit te spreken voor de twee-dimensionele Jaccard oplossing.    

Zoals @brechtdv het op Twitter al aangaf ligt de hamvraag bij zo'n MDS bij de interpretatie van de dimensies. Ik laat het aan de lezer over om dat zelf te doen. Ikzelf ben geneigd om, als je  met ongeveer -45° roteert, en je projecteert de partijen op de nieuwe X-as, er autoritarisme in te zien. Als je projecteert op de nieuwe Y-as dan zou je die dimensie kunnen interpreteren als eentje die weergeeft of een partij economisch links (boven) of economisch rechts (onder) is.

Comments

Popular posts from this blog

(small) samples versus alternative (big) data sources

Market Research and Big Data: A difficult relationship

Why The Nielsen Company is an #mrx Big Data company avant la lettre