Thursday, May 10, 2018

Bespreking van - Het algoritme heeft u door - op Interne Keuken.

Zoals velen luister ik graag naar het programma "Interne Keuken" op Radio 1 op zaterdag middag. Vorige week, op 5 mei 2018, was de literatuurwetenschapper Jos De Putter te gast over z'n interview met Michal Kosinski, één van de personages in het Facebook/Cambridge Analytica schandaal. Deze bijdrage kon me minder bekoren. In  deze blogpost leg ik uit waarom. Je kan het gesprek met Jos De Putter zelf terugvinden op Interne Keuken.

Het gaat al meteen goed fout na de inleiding wanneer Jos De Putter Michal Kosinski omschrijft als de grondlegger van de psychometrie en psychometrie definieert als de combinatie van psychologie en Big Data. Dus, voor alle duidelijkheid, psychometrie is een tak van de psychologie dat zich bezighoudt met de theorie en de  technieken van het meten van psychologische fenomenen zoals persoonlijkheidskenmerken, attitudes, enzovoort, en heeft op zich weinig te maken met Big Data. Francis Galton, een neef van Darwin overigens, wordt vaak als één van de grondleggers van de psychometrie beschouwd. Andere bekende psychometrici waren Thurstone (o.a. bekend van de Thurstone-schaal), de Deen Georg Rasch en Charles Spearman (die ook bekend is in de statistiek o.a. omwille van de  Spearman's rank correlation coefficient en voor zijn werk op het vlak van Factor Analyse).
Los van de verkeerde benaming is Kosinski ook niet de grondlegger van het meten van psychologische eigenschappen op basis van andere gegevens buiten de klassieke psychologische tests, bvb. op basis van Big Data. Wat wel waar is is dat hij gewerkt (en gedoctoreerd) heeft aan The Psychometrics Centre van de universiteit van Cambridge, een departement dat een reputatie heeft op dat soort van onderzoek. Ter illustratie een foto die ik van hun Facebook (ja, ja)  pagina heb geplukt (Echt gevaarlijk zien ze er niet uit, me dunkt.).
Zoek het kwade genius.

 Wat ook waar is dat hij en z'n collega's een aantal publicaties hebben gehad die enige ruchtbaarheid hebben gekregen. Het feit dat de man nu op Stanford werkt, is ook een illustratie dat de man geen uil is, maar om nu te zeggen dat hij een uitzonderlijk academisch parcours heeft afgelegd klopt niet. Hij is allicht een bekwame onderzoeker in het vakgebied van de psychometrie zoals er honderden anderen zijn. Of nog anders gezegd: gezagsargumenten zijn zelden goed, met Kosinski komen aandraven nog minder.

Een tweede punt van ergernis was de onbewezen veronderstelling dat het allemaal werkt. In veel media wordt er inderdaad al te gemakkelijk van uitgegaan dat Brexit en de Trump verkiezingen gekanteld zijn omwille van Cambridge Analytica (en overigens niet Cambridge Analytics zoals Jos maar bleef herhalen). Hiervoor is geen enkel bewijs (ook al wil ik toegeven dat dit bewijzen nogal moeilijk is), en de meningen onder experten lopen uiteen (zie bvb. hier). Een interessant artikel in dat verband is van de hand van Antonio García Martínez in Wired. In The Noisy Fallacies of Psychographic Targeting verdedigt hij de eenvoudige stelling:
"Cambridge Analytica’s data theft and targeting efforts probably didn’t even work, but Facebook should be embarrassed anyhow".
Contrasteer dat met de argumentatie van Jos dat de beurswaarde van Facebook een indicatie is van de effectiviteit van dit soort zaken.

Hoe je het ook draait of keert, als het over Cambridge Analytica gaat zijn er, voor zover ik het weet, 3 observaties waar we wat mee kunnen. De eerste was de Ted Cruz campagne (Ted Cruz haalde de nominatie niet), Trump en Brexit. Het feit dat twee zaken (gebruik maken van Cambridge Analytica en een verkiezingsoverwinning behalen) samengaan in de tijd is natuurlijk geen enkele bewijs van een causaal verband. Bovendien wordt zowel bij de overwinning van Trump als bij Brexit  (ook door Jos) aangevoerd dat de overwinning als een verrassing kwam, suggererend dat dit wel door manipulatie moest komen. Tenzij de magie van Cambridge Analytica plots zou beginnen te werken enkele uren voor de verkiezingen zelf, zou een substantiële verschuiving in het electoraat ook opgemerkt moeten worden in de opiniepeilingen. Overigens zou ik graag enkele kanttekeningen willen plaatsen bij het verrassend karakter van de Trump en Brexit overwinningen. In verband met de Trump overwinning citeer ik graag Nate Silver:
"Another myth is that Trump’s victory represented some sort of catastrophic failure for the polls. Trump outperformed his national polls by only 1 to 2 percentage points in losing the popular vote to Clinton, making them slightly closer to the mark than they were in 2012. Meanwhile, he beat his polls by only 2 to 3 percentage points in the average swing state".
Dat is niet alleen praat achteraf, want diezelfde Nate Silver schreef vlak voor de eigenlijke verkiezingen Trump Is Just A Normal Polling Error Behind Clinton.
Wat betreft Brexit zijn het vooral de "pundits" en de betting matkets die ernaast zaten. De peilingen deden het zo slecht nog niet (zie hier).

Maar bon, terug naar Interne Keuken. Er zijn heel wat indicaties dat men in de Verenigde Staten niet hoog op liep met de prestaties van Cambridge Analytica. Zie bvb. het volgende stukje uit Mother Jones:
In reality, Cambridge Analytica’s reputation for spotty work had circulated widely among Democratic and Republican operatives, who were also put off by Nix’s grandstanding and self-promotion. Mark Jablonowski, a partner at the firm DSPolitical, told me that there was “basically a de facto blacklist” of the firm and “a consensus Cambridge Analytica had overhyped their supposed accomplishments.”

Een derde zaak die ik jammer vond in deze uitzending is dat er geen onderscheid werd gemaakt tussen het aantonen van het bestaan van een effect enerzijds, en, de grootte van dat effect anderzijds. De stelling "Facebooks likes zijn spontaan, daar denk je niet over na, en dus die zeggen veel over jou" is niet juist. Facebook likes zeggen soms iets over jou en dan nog wel in beperkte mate. Het is niet een alles of niets spel. Neem nu stemgedrag. Politieke wetenschappers bestuderen al meer dan honderd jaar hoe stemgedrag kan verklaard worden.  Als zij het niet (goed) kunnen, dan psychologen met Facebook likes ook niet. Hoogstens kan het iets beter dan vroeger. Maar de schaal waarop die enkele percent verbetering geschied is wel nieuw en relevant.  Commercieel is een kleine verhoging van de "pakkans" al interessant want kostenbesparend, maar wetenschappelijk is zo'n vinding niet voldoende. De fout die velen maken is dat omdat de Brexit en Trump overwinningen een feit zijn dit meteen aantoont de Cambridge analytica en Facebook alles over je weten. Ten eerste is nooit aangetoond dat Brexit en Trump omwille van Cambridge Analytica is gebeurd, maar zelfs dan zou dat alleen willen zeggen dat ze de pakkans iets of wat hebben verbeterd, eerder dan een grote wetenschappelijke doorbraak.
Een gelijkaardige voorbeeld van dit zwart-wit denken is de volgende stelling van Kosinski: "Als je van Romantic comedies houdt dan ben je neurotisch". Dat is nooit aangetoond. Hoogstens is er misschien een iets groter kansje, en zelfs dan, met de huidige replicatie crisis in de psychologie en de andere wetenschappen zou ik daar niet veel van geloven. Eén van de twee medewerkers van Interne Keuken zegt dan beschroomd "ik geloof dat eigenlijk niet". Waarop Jos er een grapje van maakt. Ik neem aan dat de Stones/Beatles/stemgedrag stelling ook maar om te lachen was.
Interessant punt is dat de interviewer zegt: hij (Kosinki) kan dat bewijzen met grote getallen. Dat klopt. Maar, als je maar genoeg observaties hebt, wordt alles wel significant, maar het is daarom niet substantieel. Ook dat is een voorbeeld van het verwarren van het aantonen van een effect met de grootte van het effect.

Nog een andere misvatting die in deze uitzending naar boven kwam is de idee dat de wetenschappers zelf niet meer weten hoe het precies werkt. Samen met de uitspraak dat tegenwoordig het niet mensen, maar computers zijn die aan wetenschap doen schept dit het beeld van de wat onbeholpen wetenschapper die gebruik maakt van de computer als een soort orakel. Dat klopt natuurlijk niet. Ik meen dat het misverstand afkomstig is van het onderscheid tussen "black-box models" en "white-box models". Een klassiek voorbeeld van een "white-box model" is lineaire regressie. Neem aan dat verband tussen gewicht in Kg en lengte (in cm) kan beschreven worden door het volgende lineaire regressiemodel:
$$ g=0.6*l-30 + \epsilon
$$
De geschatte parameters 0.60 en 30 zijn eenvoudig te interpreteren en te berekenen. Bij veel (black-box) machine learning modellen en in het bijzonder bij (diepe) neurale netwerken ligt dat iets moeilijker. Je kan meestal nog wel de parameters opvragen maar die zijn niet meer zo eenvoudig te interpreteren als in het regressievoorbeeld (waar je bvb. kan zeggen dat (gemiddeld) een eenheidswijziging in lengte overeenstemt met een toename van 0.6 kg). Dat wil dus helemaal niet zeggen dat de wetenschapper geen idee heeft van wat zij/hij doet. Vaak is het zo dat black box modellen (iets) accurater zijn, wat in sommige toepassingen een voordeel is. In andere toepassingen is de interpreteerbaarheid dan weer belangrijker. Het is aan de wetenschapper om de afweging te maken welk soort van methode te gebruiken afhankelijk van het soort toepassing.
Op dit punt gekomen zegt één van de  interviewers  dat:  'iemand heeft geprogrammeerd dat als je een schoenmaat x ziet dan volgt y'. Waarop Jos antwoordt dat het zo eenvoudig niet is en dat er Artificiële intelligentie bij komt kijken. Nog het één nog het andere is juist. Wat er gebeurt is dat tijdens de "leer-fase" of de modelopbouw de best mogelijke waarden van de parameters worden geschat. Tijdens de voorspellingsfase worden de inputs omgezet in een output met behulp van die best passende parameters en het hangt ervan  af of het een "white-box" is of een "black-box" is of je er ook zinvolle conclusies uit kan trekken.

Op een bepaald punt wordt de opmerking gemaakt dat de bevinding dat ogenschijnlijke weinig zeggende feitjes (een like op Facebook bvb.), samen met andere feiten, toch een voorspellingskracht kan hebben, iets zegt over hoe ons brein werkt. Ik denk dat dit niet klopt. Ten eerste wordt het effect vaak overschat, ten tweede wil dat nog niet zeggen dat het causaal is. Volgens mij is eerder het omgekeerde geval, sommige artificiële intelligentie methoden hebben hun inspiratie gehaald uit de werking van het brein (bvb. neurale netwerken), ook al is dat in feite niet veel meer dan een analogie. 

Hierna glijdt het gesprek helemaal af naar een discussie over determinisme. Ik denk dat filosofen en fysici beter geschikt zijn om daarover te discussiëren dan statistici en psychologen. De claim dat er algoritmen zijn die (nauwkeurig) kunnen inschatten wanneer je gaat sterven is dan weer een illustratie van het verwarren tussen het aantonen van een effect en de grootte van het effect. Deze verwarring wordt gevoed door de manier waarop de media erover schrijven. Een voorbeeld daarvan is The AI that can tell you when you'll DIE: Stanford reveals 'startlingly accurate' system to predict the end of life for hospital patients in de Daily Mail. Als je dan naar het oorspronkelijke wetenschappelijke artikel gaat kijken (zie hier) dan zie je dat het gaat om het inschatten van de kans op overlijden in de volgende 12 maanden met als doel een betere palliatieve zorg te kunnen geven. Bovendien blijkt het met de "startingly accurate" voorspelling best mee te vallen. Voor een goed begrip, ik denk dat de wetenschappers hier prima werk hebben geleverd, maar hebben de media er een vertrokken beeld van geschetst.

Wat betreft die andere studie van Kosinski waarin de sexuele geaardheid van mensen werd geschat op basis van foto's kwamen al snel schedelmetingen en frenologie naar voren.  Grappig werd het wanneer de frenologie als pseudowetenschap werd weggezet (terecht overigens) terwijl bijna alles wat er voor kwam eigenlijk ook pseudowetenschap was (of goede wetenschap maar dan verkeerd voorgesteld). Grappig is ook dat uitgerekend Kosinski voor de paper werd beschuldigd van het beoefenen van "junk science". Hoe dan ook, als je  de zaak van dichterbij bekijkt dan zie je dat het algoritme enkel in specifieke omstandigheden goed werkt en in meer realistische settings tekort schiet  (zie hier voor een kritische bespreking). 
 
Vervolgens komt een andere gast, de papyrologe Valérie Wyns, met de ultieme dooddoener dat je met statistiek alles kan bewijzen. In de realiteit is het omgekeerde geval: met statistiek kan je bijna niets bewijzen en als je het al kan is de statistiek maar een heel klein hulpmiddeltje geweest.
   
Nog wat verder in het programma  wordt verwezen naar Kosinski die zegt dat het privacydebat een achterhoede gevecht is. Los van het feit dat heel wat wetenschappers het daar helemaal niet mee eens zijn, is de stelling (van Jos) dat de illusie van privacy voldoende is helemaal gek. Nadat hij door de interviewers klem is geredeneerd meent hij dat het een provocatie van Kosinksi was. Tja, zo is het natuurlijk eenvoudig.

Kortom, deze aflevering van Interne Keuken, of althans het eerste onderwerp vond ik iets minder geslaagd. Maar, om op een positieve noot te eindigen, ik heb ook wel iets geleerd, in mijn stad Leuven is blijkbaar een museum waarin je iets rond frenologie kan zien. Ik kijk er al naar uit.