Wednesday, November 17, 2021

A simple R/Shiny app to illustrate two properties of means and medians

 Recently I saw two interesting discussions on Twitter that had to do with means and medians and the relationship between both. Both were in Dutch. The first one was between Casper Albers (@CaAl) and Zihni Özdil (@ZihniOzdil) about student loans (see here). The bottomline is dat Casper Albers reminded us that a positive stochastic variable can never have a median that is more than twice the mean.

The second discussion was between Joël De Ceulaer (@jdceulaer), Karel Anthonissen (@KAnthonissen),  Youssef Kobo (@Youssef_Kobo) and Koen Fillet (@filletk) about young people buying houses and the support they get from their parents (see here). That discussion also involved means and medians.  I mentioned that if a distribution has a finite variance, the absolute value of the difference between mean and median is at most equal to the standard deviation  (see here). 

These two properties are not well know and suprising to some. I will admit that I only learned about them many years after I had left university and even then rather by accident.

To illustrate this I made a small R/Shiny App that allows you to flexibelly specify a distribution. The app will then generate some data according to that distribution, calculate mean and median, and plot the results to show that the properties hold. 

To specify the distribution I use a mixture of two 5-parameter beta-distributions. The first component of the mixture distribution specifies the bulk of the distribution. Optionally one can use the second component to specify outliers that are much further away from the first component. 

You can access the R/Shiny here. Enjoy!


Tuesday, July 13, 2021

Opmerkingen bij kadering statistische resultaten van de Grote Coronastudie

 Inleiding

Enkele weken geleden hebben Thomas Neyens (UHasselt & KU Leuven), Jonas Crèvecoeur (UHasselt & KU Leuven), Niel Hens (UHasselt & UAntwerpen), Geert Molenberghs (UHasselt & KU Leuven), Koen Pepermans (UAntwerpen), Jan Aerts (UHasselt), Pierre Van Damme (UAntwerpen), Philippe Beutels (UAntwerpen) een lang verwachte kadering van de statistische resultaten van de Grote Coronastudie (GCS) gepubliceerd. 

De eerste bladzijden lezen als een beknopte inleiding in kwantitatieve onderzoeksmethoden. Alleen daarom al, loont het de moeite om het stuk van Neyens, Crèvecoeur, Hens et al. (2021) te lezen. Met name voor niet-specialisten is dit zeer lezenswaardig. De auteurs slagen er in om in enkele paragrafen en in een eenvoudige taal wegwijs te maken in de verschillende onderzoeksmethoden.  

Daarna wordt de GCS in dit kader geplaatst en van naderbij bekeken. Samengevat is de GCS is een observationele, niet-probabilistische survey die cross-sectioneel gebruikt wordt en zowel een samenvattend als een comparatief oogmerk heeft. 

Het zal voor veel lezers duidelijk zijn dat het meest problematische van deze opzet het niet-probabilistisch karakter van de studie is. Concreet wil dat zeggen dat deelnemers zelf het initiatief nemen om deel te nemen. De vertekening die hiermee gepaard gaat wordt in de GCS gecorrigeerd door een weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie. 

In het tweede deel doen de auteurs hun best om te illustreren dat, ondanks de gebreken van niet-probabilistische studies, de GCS toch waardevolle informatie kan opleveren. Ze doen dat door te verwijzen naar de brede oproepen die ze gedaan hebben op de klassieke media en de betaalde reclame waarvan ze gebruik hebben gemaakt op de sociale media. Ze wijzen (terecht) op het feit dat de GCS beschikbaar is in vier talen (Nederlands, Frans, Duits en Engels). Verder verwijzen ze naar het feit dat de resultaten vaak worden vermeld in de media waardoor veel mensen  zich bewust zijn van de studie. Uiteraard wordt het heel grote aantal deelnemers vermeld. Initieel was dat meer dan een half miljoen deelnemers. Nu schommelt het tussen de 20,000 en de 35,000. 

Neyens, Crèvecoeur, Hens et al. (2021)  besluiten dan ook dat ze “ervan overtuigd zijn dat deze studie, ondanks gebruikelijke studiebeperkingen, van grote waarde is, niet enkel als gegevensbron voor de wetenschappelijke wereld, maar ook als tool die de beleidsvorming kan helpen door snel tendensen en signalen op te vangen”. 


Kritische evaluatie

Mijn mening is iets genuanceerder. Ik denk dat het goed is dat we over de GCS kunnen beschikken, al is het maar omdat we over weinig andere alternatieven beschikken. Maar na meer dan een jaar had men toch aan beter instrument kunnen werken. Enkele weken geleden was er weliswaar een initiatief van, o.a., Statistiek Vlaanderen waarin wel een toevalssteekproef werd gebruikt, maar dat was enkel voor Vlaanderen. Overigens, heb ik tot mijn verbazing moeten vaststellen dat deze studie veel minder media aandacht heeft gekregen dan, bijvoorbeeld, de GCS. 


Selectie vertekening

Ook al halen de auteurs  selectie vertekening of selection bias aan, toch wordt er vrij snel om het probleem gewalst. In deze paragraaf proberen we alvast één bijkomend probleem aan kaarten. We gebruiken hiervoor een vereenvoudigde, fictieve, probleemstelling, kwestie van het overzichtelijk te houden. Voor een algemeen overzicht van selection bias bij web surveys verwijs ik naar Bethlehem (2010). 

Stel dat we willen weten in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. We hebben een hypothese dat leeftijd daarin geen rol speelt, en we willen nagaan of onze hypothese wel klopt. We zijn dus geïnteresseerd in de mate waarin mensen achter de Corona-maatregelen staan, en het verband tussen die variabele en leeftijd. Bovendien weten we de exacte verdeling van de variabele leeftijd voor de ganse populatie. We gebruiken die gegevens om te wegen, net zoals de GCS dat ook doet. De GCS weegt niet enkel op leeftijd, maar ook op geslacht, opleidingsniveau en residentiële provincie. De redenering achter weging van GCS samen met een eenvoudig voorbeeld vind je terug in de paragraaf Samenvattende statistische analyse op p. 6-7 van Neyens, Crèvecoeur, Hens et al. (2021). We doen dit omdat we uit ervaring of ander onderzoek weten dat, bijvoorbeeld, jongeren minder bereid zijn om mee te werken aan wetenschappelijk onderzoek. In de realiteit is het verband tussen leeftijd en de mate waarin men meewerkt met onderzoek veel complexer. Stel je nu voor dat de houding ten opzichte van de Corona-maatregelen van de regeringen ook een invloed heeft op  het deelnemen aan de GCS. Opnieuw, in de realiteit zijn dergelijke verbanden complexer, maar voor de eenvoud van deze illustratie gaan we ervan uit dat er een positief verband tussen houding ten opzichte van de Corona-maatregelen en bereidheid tot deelname. Dit lijkt bij de haren getrokken, maar er zijn genoeg voorbeelden uit de sociaal-wetenschappelijke literatuur die op zo'n verband wijzen. Bemerk overigens dat bij de Motivatiebarometer van de Universiteit van Gent er al expliciet in de fout wordt gegaan door op de landingspagina uit te pakken met een boodschap van de eerste minister. Voor alle duidelijkheid. Ik steun de eerste minister en z’n campagnes, maar dit hoort niet thuis in een objectief meetinstrument. 

Schematisch kunnen we de hierboven geschetste situatie als volgt voorstellen (Voor meer details over deze notatie zie Pearl & Mackenzie (2019) en Thoemmes & Mohan (2015).):




Om te illustreren wat er in zo'n situatie gebeurt heb ik een kunstmatige bevolking van 1 miljoen volwassen personen gegenereerd waarbinnen geen verband is tussen leeftijd en houding. In deze denkbeeldige populatie bedraagt het gemiddelde 58.5 jaar (Dit is aan de hoge kant en niet realistisch voor de Belgische volwassen populatie). en is de gemiddelde score op de houdingsvariabele 5 (op een 10-punten schaal). De correlatie tussen de 2 variabelen bedraagt afgerond 0.00. 

Vervolgens heb ik een steekproef van 10,000 eenheden genomen waarbij de selectiekans afhangt van leeftijd en de houding t.o.v. de Corona maatregelen. In die steekproef is de gemiddelde leeftijd bijna 10 jaar ouder (67.6 jaar) dan in de populatie waar ze uit getrokken is. Dat hoeft niet te verbazen, gegeven de selectiemethode die gehanteerd is. We merken trouwens op  dat na weging de gemiddelde leeftijd terug daalt naar 58.8, zeer dicht bij de populatie-waarde. Laat ons dan eens kijken naar de gemiddelde score op de 10-punten schaal van mate waarin men achter de Corona-maatregelen van het regeringscomité staat. Deze bedraagt 6.2 in de steekproef. Dat is bijna een kwart meer dan het gemiddelde in de populatie waaruit de steekproef genomen is. Ook dat hoeft niet te verbazen gegeven dat we een verband hebben verondersteld tussen leeftijd en bereidheid tot deelname aan dit soort van onderzoek. 

Wat vervelender is, is dat, na weging, dit gemiddelde nagenoeg hetzelfde blijft of zelfs iets stijgt (6.4). Meer nog, daar waar in de populatie de correlatie tussen leeftijd en de mate waarin men achter de Corona-maatregelen van het regeringscomité staat 0 was, bedraagt die correlatie nu -0.18. Dit is, bij zo'n grote steekproef, overigens significant. Ook hier helpt wegen niet (correlatie bedraagt dan -0.21). Dit verschijnsel is een illustratie van wat soms de paradox van Berkson wordt genoemd. De epidemiologen en bio-statistici onder de auteurs kennen deze paradox maar al te goed, maar men had volgens mij duidelijker moeten verwoorden dat de assumptie wordt gemaakt dat er in de GCS geen enkele van dergelijke variabelen bestaan. Persoonlijk denk ik overigens dat zo'n assumptie niet realistisch is in deze context. Overigens verscheen onlangs nog een overzichtsartikel over collider bias in de context van COVID-19 (zie Griffith, Morris, Tudball et al., 2020).    

Het punt hier is niet dat leeftijd een effect heeft op deelnamebereidheid, dat weten we al. Ik probeer wel te illustreren dat er heel wat variabelen denkbaar zijn die die rol kunnen spelen en dat weging in dat geval weinig aan het probleem verhelpt. Dit had in Neyens, Crèvecoeur, Hens et al. best wat explicieter naar voren mogen worden geschoven.  


Comparatieve statistische analyse

De auteurs stellen dat (Neyens, Crèvecoeur, Hens et al., 2021, p. 7):

Vergelijkingen doen we via statistische modellen. In die modellen hebben niet-representatieve steekproeven meestal geringe effecten wanneer de karakteristieken die vertekening veroorzaken als zogenaamde confounders in de modellen opgenomen worden.

De vraag is natuurlijk of die mogelijke confounders op afdoende wijze zijn gemeten in de vragenlijst en vervolgens zijn opgenomen in statistische modellen. Het is, bijvoorbeeld, helemaal niet zo'n gekke hypothese om te veronderstellen dat de houding van mensen ten opzichte van de Corona-maatregelen voor een deel te maken hebben met de algemene politieke en ideologische houding van mensen. Voor zover ik weet werd dit niet gemeten in de GCS.  

Het probleem van niet gemeten confounders geldt natuurlijk ook voor onderzoek dat gebaseerd is op een representatieve steekproef. Het punt is hier eerder dat de auteurs expliciet het opnemen van confounders vermelden als voorwaarde voor het maken vergelijkingen bij niet-representatieve steekproeven. Met andere woorden, de assumptie hier is dat alle mogelijke, belangrijke, confounders zijn gemeten in de GCS en vervolgens zijn opgenomen in de statistische modellen.  

Terloops wil ik hierbij opmerken dat, in de context van houdingen en gedragingen gemeten via zelf-rapportering, de richting van causale verbanden niet altijd éénvoudig vast te stellen is. Een confounder kan dan eigenlijk een collider blijken te zijn en in dat geval kan je de variabele beter niet opnemen in je statistisch model (Zie McElreath, 2020).

Hoe dan ook, de auteurs geven, mijns inziens, een te optimistisch beeld van de mate waarin statistische modellen in staat zijn om uit niet-representatieve steekproeven zoals de GCS toch correcte vergelijkingen te maken. Het probleem ligt voornamelijk bij de niet-geobserveerde determinanten van de variabelen waarin we interesse hebben. Mijn bekommernis richt zich voornamelijk op het gedeelte van de studie dat gaat over de publieke opinie rond Covid en de regeringsmaatregelen. Ik laat dus wel de mogelijkheid open dat de data van de GCS nuttig kan zijn om het verloop van de epidemie te modelleren. Ik ga er immers van uit dat die modellen expliciet rekening houden met de vertekeningen die zich bij  niet-representatieve steekproeven kunnen voordoen. 


Vertekening-variantie afweging

Vertekening-variantie afweging, beter bekend onder de Engelse benaming Bias–variance tradeoff, verwijst naar het conflict dat ontstaat door te proberen twee soorten fouten, bias en variantie, te minimaliseren. Concreet wil dit bij de GCS zeggen dat men weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie gebruikt als middel om bias te reduceren (bij routinematige rapporten). De auteurs geven toe dat dit problematisch is voor bepaalde groepen. Zo zijn er relatief weinig laaggeschoolde, oudere mannen uit Henegouwen in de steekproef, wat de precisie doet dalen. Dit verwijst naar de variantie component van de   bias-variantie afweging. De oplossing die de GCS daarvoor hanteert is het aftoppen van gewichten zodat een gewicht maximaal 40 keer zo groot kan zijn als het kleinste gewicht. 

Het criterium van 40 wijst erop dat bepaalde groepen zoals mannelijke, oudere, laagopgeleide inwoners van Henegouwen verschillende malen minder vaak voorkomen dan je zou verwachten op basis van de populatie. Het exacte aantal keren kan ik niet afleiden uit het getal 40, maar ik vermoed dat het groter is dan 5 keer. Aftoppen op zich is zeker verdedigbaar, maar je zou dan wel explicieter mogen stellen dat je de variantie reductie betaalt door een verhoogde bias. Je kan je de vraag stellen wat in de GCS primeert, bias of variantie. Mij lijkt het dat voor heel wat rapporten en kerncijfers die uit de GCS worden afgeleid, bias belangrijker is dan variantie. Laat me deze stelling illustreren door terug te grijpen naar de vraag in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. Als we niet over een wetenschappelijk instrument beschikken om dit te meten kunnen we alleen maar gissen op basis van wat er in de kranten geschreven wordt, wat op de sociale media te lezen is of wat onze vrienden en collega's te vertellen hebben. Ik denk dat iedereen het over eens zal zijn dat dit geen goede alternatieven zijn. De GCS zou, voor deze vraagstelling, zich moeten concentreren op de vraag of het percentage voorstanders, ik zeg maar wat, 25%, 50% of eerder 75% is. M.a.w. staat de meerderheid erachter, of slechts een minderheid, of is het een dubbeltje op z'n kant? In dat geval zijn we minder geïnteresseerd of er nu rond die schatting een betrouwbaarheidsinterval van, ik zeg opnieuw maar wat, 2%, 4% of 8% breed is. Uiteraard is een kleiner betrouwbaarheidsinterval beter, maar in dit gevoelig thema, waarin de zwijgende meerderheid zelden gehoord wordt, lijkt bias me erger.

Ik wil hier wel opnieuw een uitzondering maken voor het gedeelte van de GCS dat gebruikt wordt om de statistische modellen die gebruikt worden op het verloop van de pandemie te voorspellen. Voor deze modellen is variantie allicht wel belangrijker dan voor de meer algemene rapportering rond maatschappelijke thema's. De auteurs verwijzen trouwens naar specifieke, en vaak vernieuwende, technieken die hiervoor werden gebruikt.  


Alternatieven

Zijn er dan geen alternatieven? Die zijn er wel. Het meest evidente alternatief is de toevalssteekproef. Als er één toestand is waarbij vrijwel iedereen het ermee eens zal zijn dat het trekken van een toevalssteekproef uit het Rijksregister geoorloofd is dan is het deze wel. De Corona-crisis is allicht de grootste crisis waar België tegenaan kijkt sinds de tweede wereldoorlog. Het is van cruciaal belang om te weten wat de houdingen zijn van mensen rond deze crisis. Het is van cruciaal belang om dat dan ook op een wetenschappelijk correcte manier te doen. Bovendien lijkt deze Corona-crisis de mogelijkheid bij uitstek om een goede respons te halen. Zowat iedereen, zowel de voorstanders van strenge maatregelen als de tegenstanders daarvan, hebben belang bij een correct meting. Een goed georchestreerde campagne, met zowel voor als tegenstanders, rond het belang van deelname aan zo'n onderzoek zou in mijn ogen een historische responsegraad kunnen opleveren.

Toegegeven, in zo'n geval zou je niet de grote steekproef aantallen halen waar de GCS over kan buigen. Ik ben er me ook bewust van dat die grote aantallen van belang zijn van zodra men ook geografische verschillen wil meten. Ik vermoed dat dit vooral voor de modellen belangrijk is. Hoe dan ook, ik vind het een gemiste kans dat men niet minstens één van de GCS edities heeft laten samengaan met een landelijke, op het Rijkregister gebaseerde, studie. Als men dan een aantal gemeenschappelijke vragen had opgenomen had men over vergelijkingsmateriaal beschikt dat vanuit wetenschappelijk en beleidsstandpunt bijzonder waardevol was geweest. Gegeven de gigantische kost die de overheid moet dragen in deze Corona-crisis is deze kost peanuts. Als uit zo'n vergelijking zou blijken dat de GCS het best aardig doet, dan zou dat sceptici zoals ikzelf over de streep kunnen trekken.

In de survey literatuur worden overigens ook een aantal alternatieven voorgesteld. Graag verwijs ik naar een methode die Multilevel Regression and Post-stratification (MrP) wordt genoemd. In die methode wordt poststratificatie gebruikt om te corrigeren voor selection bias, ook al is de vertekening groot en zijn er veel (combinaties van) variabelen in betrokken. Multilevel regressie wordt dan weer gebruikt om te zorgen voor stabiele schattingen op kleine subgroepen. Voor meer details zie Wang, Rothschild, Goel and Gelman (2015).

Een gekend voorbeeld is dat van een panel van xbox-gebruikers in de Verenigde Staten dat werd bevraagd over hun voorkeur voor twee presidentskandidaten. Zo'n panel is bij uitstek niet-probabilistisch en gebiased. Het panel heeft een oververtegenwoordiging van jongeren, mannen en blanken. Toch bleek dat de analyse met de MrP-methode goede resultaten opleverden (Wang, Rothschild, Goel and Gelman, 2015).

De steekproef van de GCS is natuurlijk niet zo zwaar gebiased als deze van de xbox gebruikers, maar het toepassen van dergelijke methoden zou volgens mij ook voor de GCS vruchtbaar kunnen zijn.


Beleidsconsequenties

Mijn conclusie is dat het goed is dat de GCS bestaat. Het heeft z'n dienst bewezen in moeilijke tijden. Maar, naar analogie met het Deltaplan dat na de overstromingsramp van 1953 in Nederland werd opgezet om ervoor te zorgen dan een dergelijke ramp zich niet nogmaals zou kunnen voltrekken, heeft België, m.i., nood aan een sociaal-wetenschappelijk Deltaplan waarin, op een rigoureus wetenschappelijke manier, op geregelde tijdstippen, naar de houdingen van de Belgen t.o.v. belangrijke maatschappelijke thema's wordt gepeild. Bij afwezigheid van een dergelijk meetinstrument wordt het maatschappelijk debat te veel gekleurd door de hardste roepers op de sociale media. De afgelopen anderhalf jaar hebben we te vaak regeringen zien zwichten voor de druk  waarbij, m.i., de stem van de stille meerderheid over het hoofd werd gezien.    


Referenties

Bethlehem, J. (2010). Selection bias in web surveys. International Statistical Review, 78(2),

161-188. https://doi.org/10.1111/j.1751-5823.2010.00112.x

Griffith, G.J., Morris, T.T., Tudball, M.J. et al. (2020). Collider bias undermines our understanding of COVID-19 disease risk and severity. Nat Commun 11, 5749. https://doi.org/10.1038/s41467-020-19478-2

McElreath, R (2020). Statistical Rethinking. A Bayesian Course with Examples in R and Stan. Second Edition. Boca Raton: CRC Press.

Neyens, T, J. Crèvecoeur, N. Hens, G. Molenberghs, K. Pepermans, J. Aerts, P. Van Damme, P. Beutels (2021). De Grote Coronastudie: een kadering van statistische resultaten. In: https://covid-en-wetenschap.github.io/2021/04/grote-coronastudie-kadering.

Pearl, J. and D. Mackenzie (2019). The Book of Why: The New Science of Cause and Effect. Penguin

Thoemmes, F. and K. Mohan (2015). Graphical Representation of Missing Data Problems. Structural Equation Modeling: A Multidisciplinary Journal, 22: 631–642, 2015

Wang, W., D. Rothschild, S. Goel, A. Gelman (2015). International Journal of Forecasting, 31(3), 980-991. Elsevier.







Thursday, February 25, 2021

Beware of the constrictive data science pyramid!

I tried writing on Medium. It features data science, constrictive pyramids and carpentry, but essentially it's about #HR in #Tech 😎.

Here's the result.


Regards,

Istvan

Monday, July 6, 2020

Tijd voor een noodsteekproef

In De Morgen van 23 juni 2020 doet Paul De Grauwe een oproep om mondmaskers in alle publieke ruimtes waar de afstandsregel niet kan worden gerespecteerd te verplichten. Zijn pleidooi is gebaseerd op de observatie dat de aanbeveling die tot dan gold onvoldoende is gebleken.  Ik steun de oproep van De Grauwe volledig.

Op 2 juli meldde De Morgen dat volgens de Grote Coronastudie van de universiteiten van Antwerpen, Hasselt en Leuven en de ULB, 77 procent van de Belgen mondmaskers wil verplichten in de supermarkt.

Deze twee observaties zijn niet noodzakelijk tegenstrijdig. Het zou kunnen dat tussen 23 juni en 2 juli de publieke opinie veranderd is. Het zou ook kunnen dat  mensen het 'wederkerig altruïsme' argument van De Grauwe goed begrepen hebben en zich realiseren dat enkel verplichting mensen (inclusief zichzelf) zal aanzetten tot het dragen van een mondmasker.

Een andere mogelijkheid is dat de observaties wel tegenstrijdig zijn en dat (minstens) één van de twee fout is.  Op het eerste zicht zou je kunnen stellen dat de observatie van De Grauwe dat het mondmasker nog steeds weinig gebruikt wordt anekdotisch van aard was en zeker niet als een wetenschappelijke vaststelling mag worden gezien. De Grote Coronastudie is een studie die door 4 Belgische universiteiten wordt opgezet en steun geniet van het FWO. Je zou dus geneigd zijn om meer belang te hechten aan deze laatste.
Toch wringt er iets.

Ten eerste zijn deze bevindingen moeilijk te rijmen met buitenlands onderzoek.  Zo is er een Yougov studie die aangeeft dat vooral in de Zuiderse landen mondmaskers gedragen worden (ongeveer 85%). In Duitsland is dat al een pak minder (64%) en in het verenigd koninkrijk is dat slechts 21%. Het zou me ten zeerste verbazen mocht België, of toch zeker het Vlaamse gedeelte, wat dit betreft eerder aansluiten bij zuid-Europa dan met de andere noordelijke landen.

Maar het grootste probleem lijkt me dat de resultaten van de Grote Coronastudie gebaseerd zijn op zelf-selectie. Iedereen kan meedoen aan deze studie.  Het argument waar het vaakst mee wordt geschermd is het hoge aantal observaties waar de studie op kan rekenen. Los van het feit dat dit, uitgerekend op statistische gronden, een zwakke redenering is (zie bvb. Bethlehem, 2008), zou je je dan toch minstens vragen moeten stellen bij de dalende participatie bij deze studie. De grafiek hieronder geeft het aantal deelnemers per golf.

De daling is spectaculair.  Daar waar er in het begin nog meer dan een half miljoen deelnemers waren is dit nu geslonken tot 27,000. Dat is een daling met een factor 20.  Het lijkt zeer onwaarschijnlijk dat de samenstelling bij de laatste golf dezelfde is als bij de eerste golf. Zelfs als de onderzoekers een inspanning doen om de gevolgen van de scheeftrekking te verminderen, bijvoorbeeld door middel van weging, dan nog blijft de zelf-selectie problematisch. We weten uit wetenschappelijk onderzoek immers dat de deelname aan dergelijke studies (o.a.) gecorreleerd is met de mate van betrokkenheid met het onderwerp (zie bvb. Groves, Presser & Dipko). Het is aannemelijk dat de deelnemers van de meest recente golven meer betrokken zijn met het onderwerp van de studie en allicht ook andere houdingen en gedragingen hebben t.o.v. Corona. We kunnen dit illustreren aan de hand van één de resultaten van de 14de golf van de Grote Coronastudie: "Het percentage deelnemers dat aangeeft COVID-19-symptomen te vertonen, maar toch zegt nooit een mondmasker te dragen, daalt significant doorheen de tijd. Jongeren trokken er zich er in het begin het minst van aan, maar zijn er zich nu wel veel meer van bewust." Denken we echt dat jongeren zich er nu meer van bewust zijn en/of er nu meer naar handelen? In de pers lezen we ondertussen over het toenemende aantal lockdown feestjes bij jongeren, en over de problemen rond het Flagey-plein na het sluitingsuur van de cafés. Dat lijkt allemaal moeilijk met elkaar te rijmen. Is het niet eerder zo dat het aandeel jongeren die er zich minder van aantrok nu gewoon niet meer of in ieder geval minder meedoet met de Grote Coronastudie? M.a.w. de daling kan evengoed verklaard worden door een toegenomen selection bias.

Overigens zeg ik uitdrukkelijk niet dat het onmogelijk is om zinvolle conclusies te trekken uit steekproeven gebaseerd op zelf-selectie. Zo is er een interessante studie van Andrew Gelman en collega's (Wang et al., 2014) die  met een steekproef  op basis van zelf-selectie op het Xbox platform toch zinvolle conclusies konden trekken over het stemgedrag bij de Amerikaanse verkiezingen. Hun methode steunt op multilevel-regressie en post-stratificatie. Deze technieken zijn echter helemaal niet eenvoudig. Maar vooral, het is hier niet nodig, want er bestaat een alternatief, i.e. een goede ouderwetse toevalssteekproef. Ik kom daar straks nog op terug.

Helaas is dit niet het enige geval. De "Coronastudie: hoe stel jij het in 'uw kot'?"  van  de Gentse universiteit is ook gebaseerd op zelf-selectie. Ook de studie Kinderrechtenperspectief in de coronacrisis is gebaseerd op zelf-selectie. De initiatiefnemers hebben tenminste wel de reflex om in hun methodologische nota te verduidelijken dat  "de resultaten zijn niet zonder meer te veralgemenen naar alle kinderen en jongeren".  Dat is een stap vooruit, maar die nuance is in ieder geval niet door de pers opgepikt.

Ik wil nog even terugkomen op het feit dat de meeste van de studies die ik aanhaal door academici ondersteund worden. Ik geloof dat het in 2007 op de emeritaatsviering van Prof. Dr. Jaak Billiet was dat Louis Tobback in een debat politieke opiniepeilingen afdeed als het lezen van de toekomst in de ingewanden van een vis. Veel academici waren het toen met hem eens. Welnu, aan alle onderzoekers die gebruik maken van een steekproef gebaseerd op zelf-selectie en die zich schuilen achter een groot aantal deelnemers zou ik, Tobback indachtig, willen zeggen dat het niet is omdat je de ingewanden van een walvis gebruikt dat je beter de toekomst kan voorspellen. 

Gelukkig zijn er heel wat andere academici die zich wel rigoureus aan de methodologische regels houden. Heel wat van hen zeggen me overigens privé dat ze het zelf ook graag anders zouden willen zien.  Ze wijzen er trouwens op dat dit soort onderzoek niet gepubliceerd geraakt in ernstige wetenschappelijke tijdschriften. Ik heb begrip voor hun standpunt, maar persoonlijk blijf ik het wel problematisch vinden dat (een deel van) ons Corona-beleid op dit soort onderzoek steunt. 

Voor alle duidelijkheid, het is helemaal mijn bedoeling niet om De Grote Corona studie op zich te bekritiseren. Integendeel, deze studie biedt heel wat essentiële  informatie die gebruikt wordt in statistische modellen, waarbij de statistici ook rekening houden met het niet aselect karakter van deze databron. Echter, voor het meten van de publieke opinie is de Grote Coronastudie een minder geschikt instrument.  

Wat is dan het alternatief?

Wel, het is wat in onbruik geraakt, maar een goede toevalssteekproef in combinatie met een zorgvuldig opgestelde vragenlijst - dat is overigens een kunde die weinig mensen beheersen - is vanuit wetenschappelijk standpunt nog steeds te verkiezen. In de dagdagelijkse praktijk spelen er minstens 2 hinderpalen mee. Ten eerste wordt het trekken van een goede steekproef sterk vereenvoudigd wanneer men over een lijst met alle populatie-eenheden beschikt (in vakjargon wordt van een steekproefkader gesproken), maar,  voor commercieel marktonderzoek, wordt het gebruik maken van zo'n lijst om privacy redenen niet meer aanvaard. Hierdoor is het trekken van een goede steekproef veel moeilijker geworden. De tweede hinderpaal is de stijgende non-response bij survey-onderzoek over de jaren heen (zie Beullens et al., 2018 en de referenties daarin). 

Uitgerekend in  deze Corona tijden hoeven deze twee hinderpalen hier niet mee te spelen. Ten eerste wordt er voor wetenschappelijk onderzoek en/of onderzoek dat door de overheid gesteund wordt een uitzondering gemaakt op het gebruik van, bijvoorbeeld, het Rijksregister voor het trekken van een steekproef. Ik meen dat de Corona studie bij uitstek zo'n uitzondering is. Ten tweede, als het politiek en praktisch goed wordt aangepakt, is het niet ondenkbaar dat de response voor deze studie zeer goed zou meevallen. 

We hebben met deze Corona crisis een kans gemist om sociaal-wetenschappelijke data van goede kwaliteit te verzamelen. Het is nu zaak om goed voorbereid te zijn bij een mogelijke tweede of derde golf. Dit is geen overbodige luxe. Nu reeds wordt volop gespeculeerd of bij zo'n nieuwe golf mensen een tweede lockdown gaan aanvaarden of niet.  Vaak wordt aangegeven dat dit niet het geval zou zijn. Maar op basis van wat wordt zo'n stelling verkondigd? Ik weet zelf het antwoord op de vraag niet. Ik weet wel dat je dit niet kunt doen door speculatie, steunen op gezond verstand en al zeker niet op basis van een bevragingsmethode die ingaat tegen alle advies die methodologen hierover al jaren verspreiden. 

Het is nu de moment om ons goed voor te bereiden en te werken aan wat Tim Goedemé, Senior Research Officer aan het Institute for New Economic Thinking, University of Oxford, in Knack een noodsteekproef noemde. Deze oproep sluit ook aan bij een recent advies van de Serv ("Advies betere data voor het (corona-)beleid"). Helaas was de eerste Corona golf te snel om dit nog rond te krijgen, maar voor een mogelijke tweede golf zijn er geen excuses meer. Ik heb begrepen dat alvast bij de Vlaamse administratie er plannen zijn in die richting. Ik kan dat alleen maar toejuichen.



Referenties:

Bethlehem, J. How accurate are self-selection web surveys?  Discussion paper (08014). CBS Statistics Netherlands, The Hague/Heerlen, 2008. 

Groves, R.M., S. Presser, S. Dipko. The Role of Topic Interest in Survey Participation Decisions.  Public Opinion Quarterly, 2004, Vol 68, No. 1, Pp 2-31 

Wang, W., D. Rotschild, S. Goel & A. Gelman. Forecasting Elections with non-representative polls. International Journal of Forecasting (2014).

Beullens, K., Loosveldt G., Vandenplas C. & Stoop I. (2018). Response Rates in the European Social Survey: Increasing, Decreasing, or a Matter of Fieldwork Efforts? Survey Methods: Insights from the Field. Retrieved from https://surveyinsights.org/?p=9673

Saturday, January 25, 2020

Data Science trends

Wrote a LinkedIn article on the trends I see in data science. You can find it here.

Thursday, May 10, 2018

Bespreking van - Het algoritme heeft u door - op Interne Keuken.

Zoals velen luister ik graag naar het programma "Interne Keuken" op Radio 1 op zaterdag middag. Vorige week, op 5 mei 2018, was de literatuurwetenschapper Jos De Putter te gast over z'n interview met Michal Kosinski, één van de personages in het Facebook/Cambridge Analytica schandaal. Deze bijdrage kon me minder bekoren. In  deze blogpost leg ik uit waarom. Je kan het gesprek met Jos De Putter zelf terugvinden op Interne Keuken.

Het gaat al meteen goed fout na de inleiding wanneer Jos De Putter Michal Kosinski omschrijft als de grondlegger van de psychometrie en psychometrie definieert als de combinatie van psychologie en Big Data. Dus, voor alle duidelijkheid, psychometrie is een tak van de psychologie dat zich bezighoudt met de theorie en de  technieken van het meten van psychologische fenomenen zoals persoonlijkheidskenmerken, attitudes, enzovoort, en heeft op zich weinig te maken met Big Data. Francis Galton, een neef van Darwin overigens, wordt vaak als één van de grondleggers van de psychometrie beschouwd. Andere bekende psychometrici waren Thurstone (o.a. bekend van de Thurstone-schaal), de Deen Georg Rasch en Charles Spearman (die ook bekend is in de statistiek o.a. omwille van de  Spearman's rank correlation coefficient en voor zijn werk op het vlak van Factor Analyse).
Los van de verkeerde benaming is Kosinski ook niet de grondlegger van het meten van psychologische eigenschappen op basis van andere gegevens buiten de klassieke psychologische tests, bvb. op basis van Big Data. Wat wel waar is is dat hij gewerkt (en gedoctoreerd) heeft aan The Psychometrics Centre van de universiteit van Cambridge, een departement dat een reputatie heeft op dat soort van onderzoek. Ter illustratie een foto die ik van hun Facebook (ja, ja)  pagina heb geplukt (Echt gevaarlijk zien ze er niet uit, me dunkt.).
Zoek het kwade genius.

 Wat ook waar is dat hij en z'n collega's een aantal publicaties hebben gehad die enige ruchtbaarheid hebben gekregen. Het feit dat de man nu op Stanford werkt, is ook een illustratie dat de man geen uil is, maar om nu te zeggen dat hij een uitzonderlijk academisch parcours heeft afgelegd klopt niet. Hij is allicht een bekwame onderzoeker in het vakgebied van de psychometrie zoals er honderden anderen zijn. Of nog anders gezegd: gezagsargumenten zijn zelden goed, met Kosinski komen aandraven nog minder.

Een tweede punt van ergernis was de onbewezen veronderstelling dat het allemaal werkt. In veel media wordt er inderdaad al te gemakkelijk van uitgegaan dat Brexit en de Trump verkiezingen gekanteld zijn omwille van Cambridge Analytica (en overigens niet Cambridge Analytics zoals Jos maar bleef herhalen). Hiervoor is geen enkel bewijs (ook al wil ik toegeven dat dit bewijzen nogal moeilijk is), en de meningen onder experten lopen uiteen (zie bvb. hier). Een interessant artikel in dat verband is van de hand van Antonio García Martínez in Wired. In The Noisy Fallacies of Psychographic Targeting verdedigt hij de eenvoudige stelling:
"Cambridge Analytica’s data theft and targeting efforts probably didn’t even work, but Facebook should be embarrassed anyhow".
Contrasteer dat met de argumentatie van Jos dat de beurswaarde van Facebook een indicatie is van de effectiviteit van dit soort zaken.

Hoe je het ook draait of keert, als het over Cambridge Analytica gaat zijn er, voor zover ik het weet, 3 observaties waar we wat mee kunnen. De eerste was de Ted Cruz campagne (Ted Cruz haalde de nominatie niet), Trump en Brexit. Het feit dat twee zaken (gebruik maken van Cambridge Analytica en een verkiezingsoverwinning behalen) samengaan in de tijd is natuurlijk geen enkele bewijs van een causaal verband. Bovendien wordt zowel bij de overwinning van Trump als bij Brexit  (ook door Jos) aangevoerd dat de overwinning als een verrassing kwam, suggererend dat dit wel door manipulatie moest komen. Tenzij de magie van Cambridge Analytica plots zou beginnen te werken enkele uren voor de verkiezingen zelf, zou een substantiële verschuiving in het electoraat ook opgemerkt moeten worden in de opiniepeilingen. Overigens zou ik graag enkele kanttekeningen willen plaatsen bij het verrassend karakter van de Trump en Brexit overwinningen. In verband met de Trump overwinning citeer ik graag Nate Silver:
"Another myth is that Trump’s victory represented some sort of catastrophic failure for the polls. Trump outperformed his national polls by only 1 to 2 percentage points in losing the popular vote to Clinton, making them slightly closer to the mark than they were in 2012. Meanwhile, he beat his polls by only 2 to 3 percentage points in the average swing state".
Dat is niet alleen praat achteraf, want diezelfde Nate Silver schreef vlak voor de eigenlijke verkiezingen Trump Is Just A Normal Polling Error Behind Clinton.
Wat betreft Brexit zijn het vooral de "pundits" en de betting matkets die ernaast zaten. De peilingen deden het zo slecht nog niet (zie hier).

Maar bon, terug naar Interne Keuken. Er zijn heel wat indicaties dat men in de Verenigde Staten niet hoog op liep met de prestaties van Cambridge Analytica. Zie bvb. het volgende stukje uit Mother Jones:
In reality, Cambridge Analytica’s reputation for spotty work had circulated widely among Democratic and Republican operatives, who were also put off by Nix’s grandstanding and self-promotion. Mark Jablonowski, a partner at the firm DSPolitical, told me that there was “basically a de facto blacklist” of the firm and “a consensus Cambridge Analytica had overhyped their supposed accomplishments.”

Een derde zaak die ik jammer vond in deze uitzending is dat er geen onderscheid werd gemaakt tussen het aantonen van het bestaan van een effect enerzijds, en, de grootte van dat effect anderzijds. De stelling "Facebooks likes zijn spontaan, daar denk je niet over na, en dus die zeggen veel over jou" is niet juist. Facebook likes zeggen soms iets over jou en dan nog wel in beperkte mate. Het is niet een alles of niets spel. Neem nu stemgedrag. Politieke wetenschappers bestuderen al meer dan honderd jaar hoe stemgedrag kan verklaard worden.  Als zij het niet (goed) kunnen, dan psychologen met Facebook likes ook niet. Hoogstens kan het iets beter dan vroeger. Maar de schaal waarop die enkele percent verbetering geschied is wel nieuw en relevant.  Commercieel is een kleine verhoging van de "pakkans" al interessant want kostenbesparend, maar wetenschappelijk is zo'n vinding niet voldoende. De fout die velen maken is dat omdat de Brexit en Trump overwinningen een feit zijn dit meteen aantoont de Cambridge analytica en Facebook alles over je weten. Ten eerste is nooit aangetoond dat Brexit en Trump omwille van Cambridge Analytica is gebeurd, maar zelfs dan zou dat alleen willen zeggen dat ze de pakkans iets of wat hebben verbeterd, eerder dan een grote wetenschappelijke doorbraak.
Een gelijkaardige voorbeeld van dit zwart-wit denken is de volgende stelling van Kosinski: "Als je van Romantic comedies houdt dan ben je neurotisch". Dat is nooit aangetoond. Hoogstens is er misschien een iets groter kansje, en zelfs dan, met de huidige replicatie crisis in de psychologie en de andere wetenschappen zou ik daar niet veel van geloven. Eén van de twee medewerkers van Interne Keuken zegt dan beschroomd "ik geloof dat eigenlijk niet". Waarop Jos er een grapje van maakt. Ik neem aan dat de Stones/Beatles/stemgedrag stelling ook maar om te lachen was.
Interessant punt is dat de interviewer zegt: hij (Kosinki) kan dat bewijzen met grote getallen. Dat klopt. Maar, als je maar genoeg observaties hebt, wordt alles wel significant, maar het is daarom niet substantieel. Ook dat is een voorbeeld van het verwarren van het aantonen van een effect met de grootte van het effect.

Nog een andere misvatting die in deze uitzending naar boven kwam is de idee dat de wetenschappers zelf niet meer weten hoe het precies werkt. Samen met de uitspraak dat tegenwoordig het niet mensen, maar computers zijn die aan wetenschap doen schept dit het beeld van de wat onbeholpen wetenschapper die gebruik maakt van de computer als een soort orakel. Dat klopt natuurlijk niet. Ik meen dat het misverstand afkomstig is van het onderscheid tussen "black-box models" en "white-box models". Een klassiek voorbeeld van een "white-box model" is lineaire regressie. Neem aan dat verband tussen gewicht in Kg en lengte (in cm) kan beschreven worden door het volgende lineaire regressiemodel:
$$ g=0.6*l-30 + \epsilon
$$
De geschatte parameters 0.60 en 30 zijn eenvoudig te interpreteren en te berekenen. Bij veel (black-box) machine learning modellen en in het bijzonder bij (diepe) neurale netwerken ligt dat iets moeilijker. Je kan meestal nog wel de parameters opvragen maar die zijn niet meer zo eenvoudig te interpreteren als in het regressievoorbeeld (waar je bvb. kan zeggen dat (gemiddeld) een eenheidswijziging in lengte overeenstemt met een toename van 0.6 kg). Dat wil dus helemaal niet zeggen dat de wetenschapper geen idee heeft van wat zij/hij doet. Vaak is het zo dat black box modellen (iets) accurater zijn, wat in sommige toepassingen een voordeel is. In andere toepassingen is de interpreteerbaarheid dan weer belangrijker. Het is aan de wetenschapper om de afweging te maken welk soort van methode te gebruiken afhankelijk van het soort toepassing.
Op dit punt gekomen zegt één van de  interviewers  dat:  'iemand heeft geprogrammeerd dat als je een schoenmaat x ziet dan volgt y'. Waarop Jos antwoordt dat het zo eenvoudig niet is en dat er Artificiële intelligentie bij komt kijken. Nog het één nog het andere is juist. Wat er gebeurt is dat tijdens de "leer-fase" of de modelopbouw de best mogelijke waarden van de parameters worden geschat. Tijdens de voorspellingsfase worden de inputs omgezet in een output met behulp van die best passende parameters en het hangt ervan  af of het een "white-box" is of een "black-box" is of je er ook zinvolle conclusies uit kan trekken.

Op een bepaald punt wordt de opmerking gemaakt dat de bevinding dat ogenschijnlijke weinig zeggende feitjes (een like op Facebook bvb.), samen met andere feiten, toch een voorspellingskracht kan hebben, iets zegt over hoe ons brein werkt. Ik denk dat dit niet klopt. Ten eerste wordt het effect vaak overschat, ten tweede wil dat nog niet zeggen dat het causaal is. Volgens mij is eerder het omgekeerde geval, sommige artificiële intelligentie methoden hebben hun inspiratie gehaald uit de werking van het brein (bvb. neurale netwerken), ook al is dat in feite niet veel meer dan een analogie. 

Hierna glijdt het gesprek helemaal af naar een discussie over determinisme. Ik denk dat filosofen en fysici beter geschikt zijn om daarover te discussiëren dan statistici en psychologen. De claim dat er algoritmen zijn die (nauwkeurig) kunnen inschatten wanneer je gaat sterven is dan weer een illustratie van het verwarren tussen het aantonen van een effect en de grootte van het effect. Deze verwarring wordt gevoed door de manier waarop de media erover schrijven. Een voorbeeld daarvan is The AI that can tell you when you'll DIE: Stanford reveals 'startlingly accurate' system to predict the end of life for hospital patients in de Daily Mail. Als je dan naar het oorspronkelijke wetenschappelijke artikel gaat kijken (zie hier) dan zie je dat het gaat om het inschatten van de kans op overlijden in de volgende 12 maanden met als doel een betere palliatieve zorg te kunnen geven. Bovendien blijkt het met de "startingly accurate" voorspelling best mee te vallen. Voor een goed begrip, ik denk dat de wetenschappers hier prima werk hebben geleverd, maar hebben de media er een vertrokken beeld van geschetst.

Wat betreft die andere studie van Kosinski waarin de sexuele geaardheid van mensen werd geschat op basis van foto's kwamen al snel schedelmetingen en frenologie naar voren.  Grappig werd het wanneer de frenologie als pseudowetenschap werd weggezet (terecht overigens) terwijl bijna alles wat er voor kwam eigenlijk ook pseudowetenschap was (of goede wetenschap maar dan verkeerd voorgesteld). Grappig is ook dat uitgerekend Kosinski voor de paper werd beschuldigd van het beoefenen van "junk science". Hoe dan ook, als je  de zaak van dichterbij bekijkt dan zie je dat het algoritme enkel in specifieke omstandigheden goed werkt en in meer realistische settings tekort schiet  (zie hier voor een kritische bespreking). 
 
Vervolgens komt een andere gast, de papyrologe Valérie Wyns, met de ultieme dooddoener dat je met statistiek alles kan bewijzen. In de realiteit is het omgekeerde geval: met statistiek kan je bijna niets bewijzen en als je het al kan is de statistiek maar een heel klein hulpmiddeltje geweest.
   
Nog wat verder in het programma  wordt verwezen naar Kosinski die zegt dat het privacydebat een achterhoede gevecht is. Los van het feit dat heel wat wetenschappers het daar helemaal niet mee eens zijn, is de stelling (van Jos) dat de illusie van privacy voldoende is helemaal gek. Nadat hij door de interviewers klem is geredeneerd meent hij dat het een provocatie van Kosinksi was. Tja, zo is het natuurlijk eenvoudig.

Kortom, deze aflevering van Interne Keuken, of althans het eerste onderwerp vond ik iets minder geslaagd. Maar, om op een positieve noot te eindigen, ik heb ook wel iets geleerd, in mijn stad Leuven is blijkbaar een museum waarin je iets rond frenologie kan zien. Ik kijk er al naar uit.





 


 


Thursday, December 1, 2016

(small) samples versus alternative (big) data sources



Those of you who already have attended a meetup of the Brussels Data Science Community know that, besides excellent talks, those meetups are fun because of the traditional drinks afterwards. So after the last meetup we were on our way to a bar on the campus of the University of Brussels and I had this chat with @KrisPeeters from Dataminded. Now if you are expecting wild stories about beer and loose women (or loose men for that matter), I'm afraid I'll have to disappoint you. Instead we discussed ... sampling. Kris was questioning whether typical sample sizes market research companies work with (say in the hundreds or a few thousand at the max) still matter these days, given that we have other sources that give us much larger quantities of data. I told him everything depends on the (business) question the client has.

To start with we can look at history to answer this question. In 1936 the Literary Digest poll had a sample size in the millions. But, obviously, that sample wasn’t representative because it only consisted of its readers. They predicted that Republican Alf Landon would beat Democrat Franklin D. Roosevelt. Roosevelt won in one of the largest landslides ever.

A more recent example is a study that claimed that the Dutch are the best non-native English speakers. This was debunked in http://peilingpraktijken.nl/weblog/2016/11/beheersen-nederlanders-de-engelse-taal-echt-het-best/ (Dutch). Even though the sample size was 950,000 (in 72 countries) statistician Jelke Bethlehem, a Dutch national himself, concluded that the sample was not representative and did not allow to draw the conclusions that the researchers had claimed.

Of course samples can and are biased as well. But there is a difference: Samples are constructed specifically with a research question in mind, and often are designed to be unbiased. Big data or other sources of data are often created for other reasons than research questions. As a consequence big data might have some disadvantages that are not offset by its bigger size.

Take this hypothetical example. Say you have a population consisting of N=10,000,000 individuals and you want to estimate the proportion of people that watched a certain TV show. Say that you have an unbiased sample of size $n=1,000$ and that you find that 100 of them watched the television show. So, with 95% confidence, you would estimate p=0.10 with a margin of error of $z_{\alpha / 2} \times \sqrt{{pq\over n}}= 1.96 \times \sqrt{{0.1 \times 0.9 \over 1,000}}= 0.01859$, which amounts to an confidence interval in absolute figures from  814,058 to  1,185,942. Suppose your friend has an alternative datasource with $N'=6,000,000$, so for those you know exactly whether they watched or not, with no sample error at all, so no confidence interval (unless you are a Bayesian, but that's another story). Now you know the exact number of people who watched from the 6,000,000. For simplicity's sake assume this is 600,000. To be fair, you know nothing about the remaining $N''=4,000,000$ , but you could assume that since your subpopulation is so big, they will be close to what you already have. This effectively means that you consider the alternative data source as a very large sample of size $n'=6,000,000$. In this case the sample fraction is ${n' \over N}={6,000,000\over 10,000,000}=0.6$ which is pretty high,  so you get an additional bonus because of finite population correction yielding a confidence interval between $p_-=p-z_{\alpha / 2} \times \sqrt{{pq\over n}} \times \sqrt{{N-n'\over N-1}}=0.09984$ and  $p_+=p+z_{\alpha / 2} \times \sqrt{{pq\over n}} \times \sqrt{{N-n'\over N-1}}=0.10015$. In terms of absolute figures we end up with a confidence interval from 998,482 to 1,001,518, which is considerably more precise than the 814,058 and 1,185,942 we had in the case of $n=1000$. Of course, the crucial assumption is that we have considered the n'=6,000,000 to be representative for the whole population, which will seldom be the case. Indeed, it is very difficult to setup an unbiased sample, it is therefore not realistic to hope that an unbiased sample would pop up accidentally.  As argued above, big data sources are often created for other reasons than research questions and hence we can not simply assume they are unbiased.

The question now becomes, at what point is the biasedness offset by the increased precision. In this case bias would mean that individuals in our alternative data source are more likely or less likely to watch the television show of interest than is the case in the overall population. Let's call the proportion people from the alternative data source who watched the television show $p'$. Likewise we will call the proportion of remaining individuals from the population that are not in the alternative data source that have watched the relevision show, $p''$. We can then define the level of bias in our alternative data source as $p'-p$. Since the number of remaining individuals from the population that are not in the alternative data source is $N''=N-N'$, we know that
$$Np=N'p'+N''p'', $$
which is a rather convoluted way of saying that if your alternative data source has a bias, the remaining part will be biased as well (but in the other direction).
Let's consider different values of $p'$ going from 0.05 to 0.15, which, with $N'=6,000,000$ and $N''=4,000,000$, corresponds with $p''$ going from 0.175 to 0.025, and corresponds with levels of bias going from -0.05 to 0.05. We then can calculate confidence bounds like we did above. In figure 1 the confidence bounds for the alternative data source (in black) are hardly noticeable. We've also plotted the confidence bounds for the sample case of $n=1000$, assuming no bias (in blue). The confidence interval is obviously much larger. But we also see that as soon as the absolute value of the bias in the alternative data source is larger than 0.02, the unbiased sample is actually better.   (Note that I'm aware that I have loosely interpreted the notions of samples, confidence interval and bias, but I'm just trying to make the point that more is not always better).


As said before, samples can and are biased as well, but are generally designed to be unbiased, while this is seldom the case for other (big) data sources. The crucial thing to realize here is that bias is (to a very large extent) not a function of (the sample) size. Indeed, virtue of the equation above, as the fraction of the alternative data source becomes close to 1, bias is less likely to occur, even if it was not designed for unbiasedness. This is further illustrated in the figure 2. For a few possible values of p (0.10, 0.25, 0.50 and 0.75) we have calculated what biases the complement of the alternative data source should show in function of the fraction that the alternative data source represents in the total population (i.e. sample fraction $N'/N$) and the bias $p'-p$. The point here is that the range of possible bias is very wide, only for sample fractions that are above 0.80 the sheer relative size of the subpopulation starts to limit the possible biases one can encounter, but even then biases can range from -0.1 to 0.1 in the best of cases. Notice that this is even wider than the example we looked at in figure 1.


For most practical cases in market research the fraction of the alternative data source(s) can be high, but will seldom be as high as 0.80. In other words, for all practical purposes (in market research) we can safely say that the potential bias $p'-p$ of alternative data source(s) is not a function of size, but rather from design and execution. I believe it is fair to assume that well designed samples combined with a good execution will lead to biases that will be generally lower than is the case for alternative data sources where unbiasedness is not something that is cared about.


Some concluding remarks.

I focused on bias but with regard to precision the situation is inversed, alternative (big) data sources will generally be much larger than the usual survey sample sizes leading to much smaller confidence intervals such as those in figure 1. The point of course remains that it does not help you much to have a very tight (i.e. precise) confidence interval if it is on a biased estimate. Of course, sampling error is just one part of the story. Indeed, measurement error is very often much more an issue than sampling error.

Notice by the way that enriching the part of your subpopulation that is not covered by the subpopulation with a sample does not work in practice because, in all likelihood, the cost of enriching is the same as the cost for covering the whole population. This has to do with the fact that, except for very high sample fractions, precision is not a function of population size $N$ (or in this case $N''$).

Does that mean that there is no value in those alternative (big) data sources? No, the biggest advantage I see is in granularity and in measurement error. The Big Data datsets are typically generated by devices, and thus have less measurement error and because of size they allow for a much more granular analysis. My conclusion is that if your client cares less about representativity and is more interested in granularity, than, very often, larger data sources can be more meaningful than classical (small) samples, but even then you need to be careful when you generalize your findings to the broader population.