Saturday, June 22, 2013

Visualisatiefouten deren "De Morgen" niet

Op woensdag 19 juni 2013 verscheen er een artikel in De Morgen met als kop "Crisis deert superrijken niet". Eén van de twee grafieken bij het artikel verdient nadere bespreking. Ziehier de grafiek waar het over gaat:

Om de tekst iets beter leesbaar te maken voor deze blog heb ik de grafiek iets aangepast:
Let wel dat je rekening moet houden met de lengte verhoudingen in de eerste grafiek.

Het eerste dat opvalt is dat de lengte van de twee kleinste staafdiagrammen niet in verhouding staan met de blauwe getallen (de frequenties, dus).  Voor de hoogste frequentie is er nog een excuus omdat daar een  zogenaamde schaalonderbreking wordt weergegeven (i.e. de onderbreking halverwege de staaf met de hoogste frequentie). Zoals de grafiek er nu staat had men ook een schaalonderbreking bij de 1.068.500 moeten zetten, maar aangezien de hoogte van de eerste staaf arbitrair is ten opzichte van de voorgestelde frequentie, zouden twee schaalonderbrekingen bij een grafiek met drie staven volledig absurd zijn.

Er is echter (vermoedelijk) nog een ander probleem met deze grafiek. Immers, het lijkt zeer onwaarschijnlijk dat de labeling in deze grafiek klopt. Als we de grafiek van links naar rechts lezen (en dus van de kleinste naar de grootste frequentie) dan zijn die labels respectievelijk, "Meer dan 30 miljoen dollar", "1 tot 5 miljoen dollar" en "5 tot 30 miljoen dollar". Dit gaat in tegen de manier waarop in de Westerse wereld vermogens verdeeld zijn. Ruwweg gezegd zijn er minder mensen in de hogere inkomensgroepen. Er is geen reden waarom dat dit anders zou zijn als men binnen de rijke groep drie subgroepen zou onderscheiden (rijk, heel rijk en superrijk). Theoretisch zou het kunnen afhankelijk van de categorieën die men gebruikt, maar het zou me zeer sterk verbazen dat CapGemini en RBC Wealth Management zo contra-intuïtief zouden hebben gewerkt. Ik vermoed dus zeer sterk dat de labels van de twee hoogste frequenties in De Morgen gewoon werden omgewisseld.

Wat kan je, naast de correcte labeling, nog doen om de grafiek te verbeteren? Wel, mocht dit niet voor een krant zijn, maar voor een meer wetenschappelijke publicatie zijn, zou je allicht de frequentie voorstellen op een logaritmische schaal:

Deze grafiek geeft goed aan dat  de frequentie met een factor 10 daalt wanneer je een hogere vermogenscategorie beschouwt.  Maar voor een krant lijkt me een logaritmische schaal niet aangewezen. De meeste lezers bekijken zo'n grafiek slechts zeer vluchtig en heel wat lezers zijn allicht niet (meer) vertrouwd met deze voorstellingswijze. Daarom zou mijn voorkeur naar de meest eenvoudige voorstelling gaan, namelijk:
Deze voorstelling geeft nog steeds aan dat  de frequentie met ongeveer een factor 10 daalt wanneer je een hogere vermogenscategorie beschouwt en maakt bovendien niet eens gebruik van een logaritmische schaal. Het nadeel is dan wel dat je laatste staaf zodanig plat is dat je er visueel weinig mee kan doen, wat, toegegeven, voor een krant wel belangrijk kan zijn;




Besluit: ik realiseer me dat ik soms zit te muggenziften als het om cijfers gaat in kranten, maar deze grafiek in De Morgen heeft geen enkele toegevoegde waarde. Meer zelfs, door de (vermoedelijke) fout in de labeling van de grafiek is de toegevoegde waarde negatief. Ik heb de indruk dat bij De Morgen grafieken, letterlijk, als bladvulling dienen, en dat de voorstellingswijze enkel bepaald wordt door de grootte en de plaats van de op te vullen ruimte, eerder dan de best mogelijke voorstellingswijze.
Ik zou De Morgen dan ook aanraden om binnen de redactie een groepje samen te stellen dat de schrijver van een artikel en de grafische dienst ondersteuning kan bieden bij de correcte voorstelling van cijfers. Het hoeven niet eens statistici te zijn. Er zijn heel wat politieke wetenschappers, sociologen, communicatiewetenschappers en psychologen die tijdens hun opleiding hier voldoende ervaring over hebben opgedaan. Ik ben er zeker van dat er binnen de redactie van De Morgen een paar jonge krachten rondlopen die deze taak met gemak op zich zouden kunnen nemen. Je zal er allicht niet meteen "The Guardian" mee worden, maar je kan er wel de meeste gênante gevallen mee vermijden.




Monday, June 3, 2013

Addendum bij "Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling"

Beste Tim en @_3s_,

Vooreerst dank voor jullie reacties op Enkele bedenkingen bij de recente "De Standaard/VRT/TNS" peiling. Ik wil er wel meteen aan toe voegen dat het niet mijn bedoeling was om Maarten op z'n plaats te zetten, zoals Tim schrijft. Wel in tegendeel, ik vind dat Maarten intuïtief een juiste redenering had opgezet. Wat betreft m'n opmerking over de Bayesiaanse redenering van Maarten, dat was eerder als grap/compliment bedoeld. Als @_3s_ zegt dat dit niet Baysesiaans is, geloof ik hem vrij, hij is daar meer specialist in dan ik.

Ik meen wel, dat in het specifieke geval van het TNS onderzoek, de journalisten gelijk hadden op te focussen op de daling die voor NVA werd geobserveerd.

Uiteraard ben ook ik ervan overtuigd dat je in het algemeen ook moet kijken naar de onzekerheid die er heerst rond het vergelijkingspunt. Het maakt inderdaad uit of dat komt van de verkiezingsuitslag (geen steekproeffout, zeer kleine meetfout) of van een andere opiniepeiling (grotere steekproeffout en meetfout). Een eenvoudig gedachtenexperiment maakt dit duidelijk: mocht het referentiepunt van 36 percent komen uit een peiling met een steekproefgrootte van pakweg 5, dan zou het voor iedereen duidelijk zijn, ook voor journalisten, dat je met dat ijkpunt voorzichtig moet zijn. In het geval van het TNS onderzoek ligt de steekproef steeds rond de 1000.  Het is dus redelijk van de journalist om aan te nemen dat ook de betrouwbaarheidsintervallen van eenzelfde grote orde zijn. Zelfs dan ben ik het nog steeds met Maarten eens dat je naar beide betrouwbaarheidsintervallen moet kijken. Daar waar ik het niet meer met hem eens ben is in de suggestie dat er geen overlap mag zijn in de twee betrouwbaarheidsintervallen alvorens we mogen spreken van een signficant verschil. Het is inderdaad zo dat als er geen overlap is tussen de twee betrouwbaarheidsintervallen, de twee parameters significant van elkaar verschillen. Het omgekeerde is echter niet altijd waar (zie bv. http://www.cscu.cornell.edu/news/statnews/stnews73.pdf en de referenties daarin).
Als je niet rechtstreeks de (overlap) van de betrouwbaarheidsintervallen mag gebruiken, welk alternatief gebruik je dan? Er zijn allicht meerdere mogelijkheden, maar met de gegevens die we als buitenstaanders hebben, heb ik voor het TNS onderzoek een gewone chi-kwadraat test gedaan op basis van de gegevens die ik kende (of redelijkerwijze kan inschatten). In mijn ogen verschilt deze benadering weinig van wat je zou doen mocht je willen nagaan of de aanhang voor NVA bij mannen anders ligt dan bij vrouwen. Ik zal bij TNS vragen of ze de oorspronkelijke gegevens kunnen vrijmaken voor @_3s_ zodat die de door hem voorgestelde benadering kan uitproberen. Ik moet er wel aan toevoegen dat ik vermoed dat dit niet zal lukken.

Op vraag van Tim geef ik hier de details: Ik weet dat in de nieuwe peiling het percentage voor NVA 32.1 was met n=1084. Voor de vorige peiling was het percentage 36.3. De steekproefgrootte heb ik niet onmiddellijk teruggevonden, maar ik weet dat dat voor de TNS/DS/VRT onderzoeken altijd iets boven de 1000 uitkomt. Ik heb dan ook n=1000 genomen als schatting. Dit levert me een kruistabel op met peiling 1 versus peiling 2 in de rijen en NVA versus NIET-NVA in de kolommen. De (geschatte) absolute waarden zijn dan respectievelijk 363.0, 637.0,  347.964 en 736.036. In mijn ogen kan ik in dit geval het verschil testen door de hypothese van onafhankelijkheid te nemen, wat verwachte frequenties oplevert van respectievelijk 341.2, 658.8, 369.8 en 714,2. De Chi-kwadraat wordt dan 1.39898+0.724398+1.290573+0.668264 = 4.082217 bij (2-1)(2-1)=1 vrijheidsgraad, wat significant is.

Volledigheidshalve wil ik eraan toevoegen dat iVOX (een marktonderzoeksbureau waar ik een tijdje voor gewerkt heb) in hun basisrapportage voor klanten significante verschillen tussen subgroepen aangeeft, zodat de klanten dit zelf niet moeten berekenen (en, voor je het vraagt, ja, iVOX gebruikt de Bonferroni-correctie om het probleem van kanskapitalisatie tegen te gaan ;-). De richtlijnen van FEBELMAR voor politiek onderzoek gaan zo ver niet. Daar wordt wel aangedrongen op de de rapportering van betrouwbaarheidsintervallen.  Vorig jaar was ik uitgenodigd om te spreken op een bijeenkomst van de Vereniging Voor Journalisten over de methodologie van opiniepeilingen. Om te beginnen was er weinig interesse van journalisten en was de vraag vooral: geef ons eenvoudige regels die we in de praktijk kunnen hanteren. (Overigens, één van de aanwezige journalisten was @JanJagers die naar aanleiding van deze bijeenkomst een aardig stuk over methodologie van opiniepeilingen schreef in Knack).

Wat voor mij in deze discussie van belang is het volgende:
Vaak wordt in de verslaggeving over opiniepeilingen een loopje genomen met de methodologische en statistische regels. Dat is te betreuren, maar journalisten zijn nu eenmaal zelden statistici. Het is dus kwestie van de journalisten duidelijke en eenvoudige richtlijnen te geven. Hen vragen zelf een statistische toets uit te werken is volgens mij niet redelijk. Veel verder dan het belang van betrouwbaarheidsintervallen onderstrepen zal je niet geraken.

Als er dan een krant, zoals De Standaard, zich focust op een significant verschil (ook al zijn de betrouwbaarheidsontervallen formeel gesproken onvoldoende om tot dat besluit te komen), dan vind ik dat goed. Kortom, zoals mijn grootmoeder het zou zeggen: beter één betrouwbaarheidsinterval in de hand dan 10 Chi-kwadraat-toetsen in de lucht ;-)

Als statistici en methodologen moeten we, denk ik, telkens een journalist een grove fout maakt, zoals het inzoomen op evident niet significante resultaten, dit aan de kaak stellen. Echter, wanneer journalisten de moeite nemen om toch rekening te houden met elementaire noties zoals betrouwbaarheidsintervallen, dan moeten we dat toejuichen.

Oprechte groeten,
Istvan