‘Opsporingsalgoritmes kunnen over de schreef gaan, maar alternatieven zijn niet per se beter’

Verdieping

Terwijl een medicijn grondig onderzocht wordt voordat een arts die mag voorschrijven, hebben overheden in het verleden algoritmes ingezet zonder de risico’s vooraf in kaart te brengen. De uitkomsten bleken enorme impact te hebben op mensenlevens. Dat moet anders, vindt Jurriaan Parie. Hij richtte de organisatie Algorithm Audit (AA) op waarmee hij algoritmes langs een ethische meetlat legt.

Jurriaan Parie voor zijn kantoor
Beeld: ©Arenda Oomen

Interviewer: Arend Hulshof

Eindelijk heeft Jurriaan Parie (1994) het iets rustiger. Anderhalve week voor dit gesprek publiceerde hij met zijn stichting Algorithm Audit (AA) een rapport over de Dienst Uitvoering Onderwijs (DUO). Zijn collega’s en hij deden daarvoor onderzoek waar ze maanden druk mee waren. ‘Voor het eerst mochten we een publicatie naar de Tweede Kamer brengen’, zegt hij. ‘Zeker als je bedenkt dat er slechts enkele mensen bij ons werken die ook nog eens allemaal onder de dertig zijn, ben ik er trots op dat we dit voor elkaar hebben weten te brengen.’

Aanleiding voor het onderzoek waren de negatieve berichten die vorig jaar over DUO in de media verschenen. De controles van de dienst op misbruik van studiefinanciering zouden discriminerend zijn, schreef de NOS destijds op basis van onderzoek met Investico. Studenten met een migratieachtergrond zouden opvallend vaker gecontroleerd worden dan anderen. Het ministerie van Onderwijs, Cultuur en Wetenschap gaf daarop advieskantoor PwC opdracht de zaak te onderzoeken. Vrijwel tegelijkertijd klopte DUO bij de organisatie van Parie aan voor een vergelijkbaar onderzoek.

Al langer stonden algoritmes in een slecht daglicht

Nog niet zo heel lang geleden werkte Parie zelf nog bij Deloitte, een directe concurrent van PwC. In 2021 richtte hij met filosoof Ariën Voogt Algorithm Audit op. Het gebruik van algoritmes stond al langer in een slecht daglicht, zoals bij het toeslagenschandaal. Met zijn statistische achtergrond – Parie studeerde wiskunde in Utrecht en datawetenschappen in Londen – wilde hij publieke kennis opbouwen over verantwoord algoritmegebruik door overheden, maar ook door bedrijven te onderzoeken. ‘Soms staan er de wildste beweringen in de krant over algoritmes’, zegt Parie. ‘Die wilde ik met AA tegen het licht houden.’ Uiteindelijk zou hij in 2022 zijn baan bij Deloitte opzeggen om zich helemaal op zijn non-profit organisatie te kunnen richten.

‘Tot nu toe ben ik de enige die hier fulltime werkt’, zegt hij. ‘Om mij heen zit een flexibele schil van bestuurders, experts en technici die er wel nog een baan naast hebben. We maken tools die vooroordelen kunnen opsporen binnen algoritmische processen en we hebben een platform opgericht waarop overheden, bedrijven en academici kennis met elkaar uitwisselen. Daar valt namelijk echt een hoop te winnen. Hoe kun je als bedrijf of overheid de gevolgen van je algoritmebeleid overzien als je de technische kant niet goed kent? En we onderzoeken dus zelf algoritmes en leggen die als het ware langs een ethische meetlat.’

Dat laatste bleef niet onopgemerkt. Al ruim voor de publicatie over het DUO-onderzoek is het ministerie van Binnenlandse Zaken en Koninkrijksrelaties een samenwerking aangegaan met AA. Althans, niet echt een samenwerking, nuanceert Parie. ‘Het ministerie betaalt subsidie zodat wij ons werk kunnen doen, maar dat doen we wel geheel onafhankelijk. Wij bepalen welke algoritmes we onderzoeken en ook hoe we dat aanpakken.’

Eigenlijk lijkt dat onderzoek op het werk dat Parie bij Deloitte deed. ‘Op heel veel andere plekken in de maatschappij zijn structuren opgebouwd om risico’s te beheersen. In de luchtvaart, in de financiële wereld, in de medische wereld, noem maar op. Talloze organisaties hebben waarborgen opgetuigd om misstanden of ongelukken te voorkomen.'

'Luchtvaartmaatschappijen moeten voorkomen dat vliegtuigen neerstorten en voordat een arts een vaccin mag toedienen of bepaalde medicijnen mag voorschrijven, moeten die langs meerdere schijven voor goedkeuring. En banken moeten er wettelijk op toezien dat klanten geen fraude plegen of terrorisme financieren. Vaak huren ze daar bedrijven als Deloitte of KPMG voor in om alle processen tegen het licht te houden.’

‘De publieke sector heeft gek genoeg redelijk lang achteropgelopen als het om zulke risicobeheersing gaat’, vervolgt hij. ‘En zeker bij het gebruik van algoritmes. Zonder dat er naar de mogelijke gevaren werd gekeken, werden die ingezet met soms alle gevolgen van dien. Met Algorithm Audit brengen wij die risico’s alsnog in kaart. Maar anders dan Deloitte en die andere bedrijven doen wij dat zonder winstoogmerk. Ik geloof dat het ministerie ruim 500.000 euro heeft betaald voor het PwC-onderzoek naar de controles van DUO. Wij hebben nagenoeg hetzelfde werk kunnen verrichten voor ongeveer 20 procent van dit bedrag.’

Jurriaan Parie close up van gezicht
Beeld: ©Arenda Oomen

Na de algoritmische selectie volgde een handmatige

Die inmiddels stopgezette DUO-controles naar misbruik van studiefinanciering bestonden uit twee fases. Doel was om te kijken of als uitwonend geregistreerde studenten niet stiekem toch bij hun ouder(s) woonden. In de eerste fase maakte een algoritme een selectie onder alle studenten op basis van drie kenmerken: leeftijd, onderwijssoort en afstand tussen het opgegeven woonadres van de student en het adres van diens ouder(s). Hoe lager de waarden van die drie variabelen, hoe hoger het algoritme het risico op misbruik inschatte. Mbo’ers van 18 jaar die twee kilometer van hun ouder(s) wonen, hadden dus een veel grotere kans op controle dan een student van 23 aan een universiteit die in een heel andere stad stond ingeschreven dan zijn of haar ouders.

In de tweede fase selecteerden ambtenaren uit die algoritmische selectie handmatig studenten die daadwerkelijk gecontroleerd werden. Al met al had je als student met een migratieachtergrond twee keer zoveel kans om er uiteindelijk uitgepikt te worden dan anderen, zo concludeerde minister Dijkgraaf naar aanleiding van het onderzoek van PwC.

Parie noemt dat een voorbarige conclusie. ‘PwC maakte een schatting op basis van publiek beschikbare data over de hoeveelheid inwoners met een migratieachtergrond per postcodegebied. Wij hebben het CBS om gedetailleerdere data gevraagd en kunnen richting de zomer een veel nauwkeuriger beeld schetsen. Helaas was de data niet op tijd beschikbaar om mee te kunnen sturen in het recente rapport naar de Tweede Kamer’, zegt hij. (Zie kader1.)

Parie was vooral tevreden dat de pers zich niet gelijk stortte op alleen het algoritme. ‘Dat had zomaar gekund’, zegt Parie. ‘Dat er krantenkoppen zouden verschijnen met “DUO-algoritme discrimineerde”. Dat zou feitelijk niet correct zijn geweest. Het was de combinatie van het algoritme met de handmatige selectie erna door de ambtenaren die tot discriminatie heeft geleid.’

Kader 1: Nader onderzoek naar discriminatie

Een student met een migratieachtergrond had twee keer zoveel kans om er door DUO uitgepikt te worden voor een onderzoek naar misbruik van studiefinanciering dan andere studenten. Dat was de conclusie die Onderwijsminister Dijkgraaf trok naar aanleiding van het PwC-onderzoek. Jurriaan Parie noemt die conclusie voorbarig.

Hij legt uit dat PwC slechts een schatting maakte op basis van beperkte gegevens. ‘De PwC-onderzoekers keken naar de postcodes van studenten die zijn gecontroleerd voor onderzoek, en berekenden aan de hand van hoeveel mensen er in die postcodegebieden wonen met een migratieachtergrond hoeveel van de slachtoffers ook tot die groep zouden behoren.

Dus stel je hebt tien mensen uit een postcodegebied dat voor 50 procent bestaat uit mensen met een migratieachtergrond, dan rekende PwC dat vijf van die tien geselecteerde studenten ook een migratieachtergrond hebben. In werkelijk kunnen ze echter ook alle tien een migratieachtergrond hebben, of alle tien geen migratieachtergrond hebben. ‘Statistisch-methodologisch gezien is dat dus dun ijs’, zegt hij.

Om een veel nauwkeuriger beeld te kunnen schetsen hebben DUO en AA aanvullende informatie opgevraagd bij het CBS. Met de BSN-nummers van de benadeelden (die allemaal anoniem blijven) wil Parie berekenen hoeveel daarvan exact een migratieachtergrond hebben. ‘Misschien is de schatting van PwC wel overdreven en was de kans dat je er als student met een migratieachtergrond uitgepikt werd wel veel kleiner. Maar andersom kan ook. Het kan ook zijn dat de kans daarop wel veel groter was.’

Jurriaan Parie zittend achter laptop peinzend
Beeld: ©Arenda Oomen

Indirecte discriminatie valt nooit helemaal uit te sluiten

Sowieso was er bij het algoritme geen sprake van ‘directe discriminatie’, zegt Parie. Dat zou wel het geval zijn geweest als het algoritme direct onderscheid had gemaakt tussen wel of geen migratieachtergrond. Het ging nu om indirecte discriminatie, dat overigens evengoed verboden kan zijn. Door selectie op de kenmerken leeftijd, onderwijssoort en afstand tot de ouder(s) werden meer studenten met een migratieachtergrond eruit gepikt dan andere studenten waardoor zij indirect dus toch gediscrimineerd werden.

Eigenlijk valt dat nooit helemaal uit te sluiten, vervolgt Parie. ‘Iedere variabele waar een algoritme naar kijkt kan in meer of mindere mate leiden tot discriminatie. Bij DUO was daar geen sprake van, maar zelfs als een algoritme bijvoorbeeld zou kijken naar de simkaart die in je telefoon zit, kan het misgaan. Zeker als die simkaart van een merk is dat vooral door migranten wordt gebruikt.’

En zelfs nu er uit die metingen geen sprake lijkt te zijn van indirecte discriminatie zou er volgens Parie toch een brede maatschappelijke discussie gevoerd moeten worden of het wel gewenst is dat dat algoritme van DUO onderscheid maakt op leeftijd en onderwijsvorm. ‘Dat er juridisch gezien misschien geen sprake is van discriminatie, wil niet zeggen dat we het ethisch verantwoord vinden dat mbo’ers of jongere studenten er sneller uitgepikt worden dan anderen.’

Laptop van Jurriaan Parie met allemaal code op het scherm
Beeld: ©Arenda Oomen

Welke kenmerken wel, en welke niet?

Om zo’n brede discussie op gang te brengen, zou Parie graag een aanzet doen om in kaart te brengen wat ethisch wel en niet verantwoord is. Dat hij dat bij het DUO-algoritme nog niet deed, komt omdat de kans klein is dat de dienst het algoritme met deze drie kenmerken weer aan het werk zal zetten. ‘Liever zou ik willen kijken naar wat DUO in de toekomst wil gaan doen. Mocht er toch weer een algoritme worden ingezet, en dat lijkt mij op zich een goed idee, dan zouden we vooraf mee willen kijken en beoordelen welke kenmerken wel en niet meegewogen zouden moeten worden.’

Bij een ander algoritme publiceerde AA wel al zo’n analyse. Dat ging over het algoritme dat de gemeente Rotterdam gebruikte om onrechtmatig gebruik van bijstandsuitkeringen op te sporen, waarover de Rotterdamse Rekenkamer in 2021 aan de bel had getrokken.

Dat algoritme keek naar ruim 60 verschillende kenmerken en pikte daar 20 uit met de meest voorspellende waarde. Rotterdammers met een bijstandsuitkering die op die top-20 kenmerken hoog genoeg scoorden, konden een grondige controle verwachten waarbij hun hele administratie binnenstebuiten werd gekeerd.

Het ging om variabelen als geslacht, woonwijk en geletterdheid. Maar ook of je naar een psycholoog ging, werd door het algoritme meegewogen, en of je gediagnosticeerd was met adhd.

Het gebruik van dat algoritme zou kunnen leiden tot oneerlijke en vooringenomen uitkomsten, waarschuwde de Rotterdamse Rekenkamer. Later kwamen Radio 1-programma Argos en onderzoeksjournalisten van Lighthouse Reports in een kritische uitzending met meer onthullingen over wat er mis ging bij datzelfde algoritme dat inmiddels al een tijd niet meer wordt gebruikt.

‘De berichtgeving triggerde me destijds enorm’, zegt Parie. ‘In feite was dat de directe aanleiding om stichting Algorithm Audit op te richten. Vanuit mijn statistische achtergrond vroeg ik me gelijk af of de Rekenkamer niet voor meer kenmerken had moeten waarschuwen omdat die waarschijnlijk evengoed tot indirecte discriminatie konden leiden. Als dossiervreter ben ik er toen met Ariën Voogt ingedoken en zijn we alles gaan lezen wat we erover konden vinden, waarna we samen AA zijn begonnen.’

Dat er iets mis was, was wel vrij snel duidelijk. Anders dan bij DUO discrimineerde dit algoritme direct door ook te kijken naar kenmerken als adhd of geslacht, waarvan het wettelijk verboden is om daar onderscheid op te maken. Bij andere variabelen was er een grote kans op indirecte discriminatie zoals bij laaggeletterdheid of postcode. Parie: ‘Als je in een wijk woont met veel inwoners met een migratieachtergrond, kun je op basis van je postcode daar alsnog indirect op gediscrimineerd worden.’

Jurriaan Parie voor de Hofvijver
Beeld: ©Arenda Oomen

Rode en groene kenmerken

Uiteindelijk legden Parie en Voogt de zeventien meest saillante kenmerken van het Rotterdamse algoritme langs een ethische meetlat. Zij stelden daarvoor een commissie samen met wetenschappers, een Tilburgse wethouder en de lokale ombudsmannen van Amsterdam en Rotterdam. ‘Eigenlijk hadden we ook burgers in die commissie willen hebben, maar dat werd te ingewikkeld’, zegt Parie. ‘De discussies werden al snel heel technisch met veel jargon. Daarom kozen we voor die twee ombudsmannen. Vooraf hadden we sessies met focusgroepen georganiseerd waarin burgers hun stem konden laten horen wat meegenomen en toegelicht is tijdens de adviescommissiebijeenkomst.’

In het rapport werden de zeventien kenmerken uiteindelijk opgesplitst in twee kleuren. De rode variabelen mogen als het aan de commissie ligt niet meer gebruikt worden bij de selectie. De wettelijk verboden kenmerken vallen daar sowieso onder. ‘Daar hoefden de commissieleden niet lang over te vergaderen’, zegt Parie glimlachend. ‘Ook de kenmerken ‘laaggeletterdheid’ en ‘postcode’ kregen al snel de rode kleur vanwege de grote kans op indirecte discriminatie.

Over andere kenmerken was soms iets meer discussie. Hoe die commissie dan uiteindelijk steeds tot een oordeel kwam? ‘We kozen er niet voor om te stemmen’, zegt Parie. ‘Ik geloof niet dat dat de beste methode zou zijn geweest. We willen juist dat zo’n commissie in overleg tot consensus komt zodat we ook een onderbouwing van het oordeel hebben die in onze adviezen centraal komt te staan. Ook de bedenkingen die sommige commissieleden eventueel hebben over een oordeel benoemen we in het rapport. Dat kan bijdragen aan het inhoudelijke debat dat we in de toekomst over algoritmes blijven voeren.’

Van die zeventien kenmerken kregen er zes de groene kleur. Zo mag een algoritme dat onrechtmatig gebruik van bijstandsuitkeringen opspoort van de commissieleden meewegen of burgers wel komen opdagen bij afspraken met de gemeente. Ook mag een algoritme in dit geval kijken met wie iemand woont, met huisgenoten of een partner. Dat kan evengoed een indicatie zijn, vindt de commissie. Daarnaast vinden de commissieleden dat een algoritme mag meewegen of er vaak herinneringen moeten worden gestuurd als de gemeente om bepaalde gegevens heeft gevraagd. ‘Ook dat kan duiden op mogelijk onrechtmatig gebruik’, zegt Parie. ‘En ja’, benadrukt hij nog eens, ‘ook die variabelen zouden indirect kunnen leiden tot discriminatie. Dat valt nu eenmaal nooit helemaal uit te sluiten. Maar de commissieleden oordeelden dat bij deze variabelen er een beheersbaar risico was.’

Van de groene variabelen heeft alleen ‘leeftijd’ niet per se iets te maken met het doel van het algoritme. (Zie ook kader 2.) Hoe oud iemand is hoeft niet te betekenen dat er misschien iets niet in de haak is. ‘Althans dat zou eigenlijk nog wel onderzocht kunnen worden’, zegt Parie. ‘Misschien dat de kans op onrechtmatig gebruik bij iemand die al vijfentwintig jaar in de bijstand zit kleiner is dan bij een burger die pas net zo’n uitkering ontvangt. Maar dan zou je eigenlijk naar ‘aantal jaren in bijstand’ moeten kijken in plaats van naar de leeftijd. Dat zou nader bekeken moeten worden.’

Zou dat eigenlijk vooraf niet eerst vastgesteld moeten worden voordat je een kenmerk groen kleurt? ‘Dan zou je altijd een statistische meting moeten verrichten om te kijken of ieder kenmerk wel in verband staat met het doel’, reageert Parie nadenkend. ‘En zelfs als blijkt dat mensen die nog niet zo lang in de bijstand zitten statistisch gezien vaker over de schreef gaan, zou je met elkaar de discussie moeten aangaan of een algoritme dat onderscheid wel moet maken. Als statisticus vind ik het natuurlijk heel interessant om zulke metingen te verrichten, maar uiteindelijk kun je niet alleen met getallen beslissingen nemen. Het is vooral belangrijk dat we blijven bespreken waarom we onderscheid willen en maken en hoe het gemaakte onderscheid verantwoord kan worden. Dus dat je niet per ongeluk vooral veel vrouwen of mensen met een migratieachtergrond treft door naar een op het oog onschuldig kenmerk te kijken. Als de kans daarop significant groot is, moet het kenmerk sowieso rood worden gekleurd.’

Kader 2: Leeftijdsdiscriminatie

Een beleid, zoals een overheidsinstantie die fraude onderzoekt of een werkgever die nieuwe werknemers zoekt, kan bedoeld of onbedoeld leiden tot onderscheid tussen bepaalde groepen mensen. Als een organisatie dit onderscheid maakt op gronden die wettelijk beschermd zijn, zoals geslacht, afkomst, seksuele oriëntatie, of een handicap of chronische ziekte, en hiervoor kan de organisatie geen goede, rechtvaardigende reden geven, dan maakt de organisatie verboden onderscheid. We spreken dan van discriminatie.

En leeftijd dan? Zowel het Rotterdamse als het DUO-algoritme waar Jurriaan Parie onderzoek naar deed, maakte daar onderscheid op. Toch is er in die gevallen geen sprake van leeftijdsdiscriminatie.

De gelijkebehandelingswetgeving kent ook een verbod op onderscheid naar leeftijd. Een sollicitant zomaar weigeren voor een baan omdat diegene te oud is, mag dus niet. Maar de wetgeving rond leeftijdsonderscheid laat wel meer ruimte voor een rechtvaardigend argument dan de eerdergenoemde persoonskenmerken. Dit geldt zeker als het algoritme niet gaat over arbeidskwesties. In het geval van opsporing van bijstandsfraude of misbruik van studiefinanciering is het daarom niet per se verboden dat een algoritme iemands leeftijd meeneemt.

Toch zal er wel een duidelijk verband moet zijn tussen leeftijd en het doel van het algoritme. Zolang niet is aangetoond dat iemands leeftijd de kans vergroot op misbruik of fraude mag je leeftijd evengoed niet laten meewegen in de algoritmische selectie. Als het bijvoorbeeld gaat om een Wajong-uitkering die je alleen tot een bepaalde leeftijd mag aanvragen, dan is er wel een duidelijk verband, en dan zou een algoritme daar wel naar kunnen kijken.

Jurriaan Parie loopt op straat
Beeld: ©Arenda Oomen

‘Willekeurige selectie niet per se de beste methode’

Er klinken ook geluiden dat algoritmes helemaal niet meer moeten worden ingezet voor het opsporen van fraude of misbruik. ‘Dat zal zeker niet leiden tot een betere situatie’, zegt Parie stellig. ‘Als je de selectie alleen laat maken door menselijke beoordelaars zoals dat voorheen gebeurde, kan dat evengoed tot discriminatie leiden omdat er bij de keuzes die ze maken altijd onderbuikgevoelens kunnen meespelen, bewust of onbewust. Bij DUO zie je dat het juist bij de menselijke stap enorme verschuivingen plaatsvinden.’

Een geheel willekeurige selectie waarbij iedere burger met een bijstandsuitkering evenveel kans maakt op een grondige controle, is volgens Parie ook niet per se de beste methode. ‘Ik weet dat ook daar stemmen voor opgaan. In de media is zelfs gezegd dat die willekeurige selecties even efficiënt zouden werken als de algoritmische methodes. Maar cijfers van de gemeente Rotterdam en DUO spreken dat tegen. Met een algoritmische selectie zul je sneller onrechtmatig gebruik eruit pikken dan met volstrekt willekeurige selecties. Een opsporingsalgoritme kan over de schreef gaan, maar de alternatieven zijn niet per se beter. Daarom is het belangrijk dat mens en algoritme goed leren samenwerken. Op dat terrein moeten we nu als samenleving veel leren, maar we kunnen daar op de lange termijn eerlijke besluitvormingsprocedures voor in de plaats krijgen.

Vloeibare normen

Met het rapport over het Rotterdamse algoritme heeft AA ‘normatieve piketpaaltjes’ willen slaan. Die geven een richting aan welke ethische afwegingen er in de toekomst gemaakt kunnen worden bij het ontwikkelen en in gebruik nemen van nieuwe algoritmes.

‘Zeker bij risicovolle algoritmes zou er eigenlijk altijd vooraf zulke debatten gevoerd moeten worden. In volledige transparantie. Je wil niet dat alleen een groep beleidsmakers er achter de schermen een discussie over heeft gevoerd. Er moeten deskundigen bij betrokken worden en natuurlijk ook burgers die benadeeld zouden kunnen worden door zo’n algoritme.’

Daarbij kan er door die transparantie altijd teruggegrepen worden naar de keuzes die bij vergelijkbare algoritmes zijn gemaakt. Met zijn team bedacht Parie daar een nog niet bestaande term voor: ‘algoprudentie’ – een samenstelling van de woorden algoritme en jurisprudentie. ‘We merken dat met name juristen de term algoprudentie kunnen waarderen en dat we ons verhaal daardoor beter kunnen toelichten’, zegt Parie. Half maart schreef hij er met twee collega’s een stuk over in het Nederlands Juristenblad.

Maar blind moeten ambtenaren niet varen op die eerdere besluiten. De commissie die zich over het Rotterdamse algoritme boog, zegt ook zeker niet dat alle algoritmes vanaf nu onderscheid mogen maken op de door hen groen gekleurde variabelen. ‘In iedere context moet dat steeds weer opnieuw worden gewogen. Onderscheid maken op iemands huishoudsamenstelling om maar een voorbeeld te noemen kan in andere gevallen wel leiden tot indirecte discriminatie, waarbij het risico helemaal niet zo beheersbaar is.’

            ‘Het is werk in voortdurende uitvoering’, benadrukt hij tot slot. ‘Normen zijn vloeibaar en veranderen. Bovendien leren we van fouten. De risico’s van de kenmerken die we nu groen kleuren zouden zomaar toch minder beheersbaar kunnen zijn dan we nu inschatten. Alleen daarom al zullen we al die algoritmische processen steeds weer opnieuw tegen het licht moeten houden.’