Interview: 'Laten we nou vooral leren van gemaakte fouten en kijken of we algoritmes wél verantwoord kunnen inzetten'
Verdieping
De Utrechtse wetenschapper Iris Muis is een van de ontwikkelaars van het zogeheten IAMA. Een richtsnoer die het debat over mensenrechten en algoritmegebruik stimuleert. De Rotterdamse gemeenteambtenaar Myriem Bouaddi is een van de gebruikers ervan. Een tweegesprek over de methode.
Ze kennen elkaar nog niet echt. Wel volgde de Rotterdamse Myriem Bouaddi eind 2021 vanuit huis een onlinepresentatie van Iris Muis, vertelt ze aan het begin van het gesprek. ‘Dus ik zag jou toen in een van de vele schermpjes’, reageert Muis grappend.
Eén uitspraak uit die lezing is haar bijgebleven, vervolgt Bouaddi. ‘“Ethiek is geen checklist”, zei je toen. Het is niet een kwestie van even bespreken wat wel en niet verantwoord is en dan afvinken. Nee, we moeten ons voortdurend blijven afvragen of de gevolgen van het Rotterdamse algoritmegebruik wenselijk zijn.’
En daarmee is de toon van het gesprek tussen Bouaddi en Muis over ethiek en artificiële intelligentie gezet. Eigenlijk is hun rolverdeling die van leverancier en tevreden klant. Met andere wetenschappers ontwikkelde Muis die werkt bij de Universiteit Utrecht, het zogeheten IAMA, oftewel: het Impact Assessment Mensenrechten en Algoritmes (zie kader onderaan het artikel). Aan de hand van dit 95 pagina’s tellende document kunnen overheden en organisaties intern de discussie voeren of hun algoritmes wel ethisch verantwoord zijn en of de mensenrechten wel worden nageleefd. Een diverse groep medewerkers gaat dan met elkaar om de tafel zitten, van managers en juristen tot data-analisten en uitvoerders.
Parkeerscanauto’s
En Bouaddi is een van de gebruikers van het IAMA. Zij werkt bij de gemeente Rotterdam en leidt het door haar in 2020 opgezette team Advanced Analythics. Met inmiddels 25 mensen is haar team onder andere betrokken bij de ontwikkeling van algoritmes die de gemeente gebruikt. Bij nieuwe algoritmes controleren ze vooraf en tijdens de bouwfase met de eindgebruiker hoe risicovol die eventueel kunnen zijn. Als dat risico hoog is dan beleggen de collega’s van Bouaddi met haar team een aantal IAMA-sessies met alle betrokken partijen. ‘Dan moet je denken aan de Data Scientist die het algoritme bouwt, maar zeker ook aan de ambtenaren die het algoritme in gebruik zullen nemen. Met elkaar krijgen we door die reflectie een beter inzicht in wat de gevolgen nou werkelijk zijn van het algoritmegebruik.’
Soms blijken die mee te vallen, vervolgt Bouaddi. Ze noemt het algoritme achter de scanauto’s die door de stad rijden om onbetaald geparkeerde auto’s te traceren en te beboeten. ‘Aanvankelijk schaalden we dat in als hoogrisico-algoritme. Er komen immers persoonsgegevens bij kijken, en dan ben je extra alert. Nou dat viel dus wel mee, ontdekten we toen we het algoritme eens goed tegen het licht hielden tijdens de IAMA-sessie. Die scanauto’s kijken namelijk sec naar de kentekens. Pas als blijkt dat er sprake is van een overtreding omdat er geen of onvoldoende parkeergeld is betaald en de auto-eigenaar evenmin een parkeervergunning blijkt te hebben, komen bepaalde persoonsgegevens in beeld en wordt er een boete verstuurd.’
‘Oneerlijke en vooringenomen uitkomsten’
Waar het wel misging was bij een algoritme dat bijstandsfraude moest voorspellen. Eind 2021 berichtte VPRO-radioprogramma Argos daar uitgebreid over. Eerder was dat algoritme ook al kritisch beoordeeld door de Rotterdamse Rekenkamer. Om fraude op te sporen, vergeleek het algoritme de persoonsgegevens van mensen met een lopende bijstandsuitkering met de gegevens van in het verleden veroordeelde bijstandsfraudeurs, bleek uit het rapport van de Rekenkamer. Uit die vergelijking kwam dan een risicoscore. Wie weinig overeenkomsten had met de eerder veroordeelde fraudeurs had een lage score. Maar als het aantal overeenkomsten opliep, werd de score hoger en werd de kans groter dat je een grondige controle kreeg. Je hele administratie kon dan binnenstebuiten worden gekeerd, zo werd uitgelegd in de Argos-uitzending.
Het algoritme maakte die vergelijking op basis van kenmerken als geslacht, woonwijk, taal en eventuele indicaties van psychische en financiële problemen. En die vergelijkingen leidden tot oneerlijke en vooringenomen uitkomsten, oordeelde de Rotterdamse Rekenkamer in het rapport.
De gemeente zei de kritiek serieus te nemen en paste de methode aan. Maar acht maanden later stelde Argos vast dat die aanpassingen nog niet voldoende waren. Een aantal persoonlijke kenmerken waar het algoritme op selecteerde, was inderdaad geschrapt. Maar het algoritme bleek nog steeds te kijken naar de wijk waarin iemand woonde. Dus als je een bijstandsuitkering had en je woonde in een wijk met relatief veel veroordeelde bijstandsfraudeurs, dan telde dat nog altijd mee in jouw risicoscore. En ook dat kan indirect leiden tot discriminatie. Mensen met een migratie-achtergrond kunnen zo een grotere kans hebben op zo’n grondige controle dan andere burgers, zo werd uitgelegd in de Argos-uitzending.
Nieuw algoritme op basis van vertrouwen
Bouaddi zegt die uitzending van Argos drie keer te hebben geluisterd. Ook is er veel over gesproken binnen de gemeente, vertelt ze. En nee, ze is het lang niet met alles eens wat erin verteld werd. ‘Het probleem is dat veel critici van algoritmes te veel focussen op het algoritme zelf, en niet op het beleid erachter’, zegt ze. ‘Als het beleid niet deugt dan moet je daarnaar kijken, maar dan hoef je niet meteen het algoritmegebruik te staken. Je kunt ook het beleid aanpassen en dat dan alsnog met algoritmes efficiënter proberen uit te voeren. Je kunt ook fraude opsporen zonder te selecteren op kenmerken als woonwijk en taal.’
Het bekritiseerde bijstandsalgoritme is nu dan ook niet meer in gebruik, zegt ze. Maar dat betekent niet dat de gemeente voortaan geen gebruik meer zal maken van artificiële intelligentie als hulpinstrument bij controles. Bouaddi: ‘Met behulp van IAMA zijn we een nieuw algoritme aan het ontwikkelen. Daarin moet vertrouwen de basis zijn. Daarom willen we dit algoritme trainen om de rechtmatigheid te meten en niet de fraude.’
Haar collega schakelde Iris Muis in om de IAMA-sessies voor dit nieuwe algoritme te leiden. ‘Dat zijn meestal drie sessies van in totaal vijf uur. Waarbij we in dit geval de derde sessie nog moeten doen’, zegt de Utrechtse wetenschapper. ‘Het doorlopen van het IAMA duurt gemiddeld zo lang. Het kost nu eenmaal tijd om echt goed te evalueren en we raden deelnemers altijd aan om uit de dagelijkse routine te stappen en stil te staan bij de reflectie.’
‘Rotterdam is een van de koplopers’
Aan de sessies over het nieuw te ontwikkelen Rotterdamse bijstandsalgoritme deden zo’n tien ambtenaren mee, weet Muis nog. ‘Er werd kritisch nagedacht hoe ze konden voorkomen dat er alsnog ongewild vooroordelen in het algoritmegebruik zouden slippen. Want dat is toch wel het grote gevaar bij het automatiseren van opsporing.’ Muis zegt positief te zijn over het Rotterdamse algoritmebeleid, ondanks de negatieve berichtgeving in de media. ‘Rotterdam is een van de koplopers. De stad gebruikt IAMA niet alleen, de gemeenteambtenaren van de stad hebben ook bijgedragen aan de ontwikkeling ervan. Het prototype hebben zij uitgebreid getest. En inmiddels heeft Rotterdam als eerste het IAMA volledig verankerd in alle algoritmeprocessen. Zover zijn andere gemeentes en organisaties nog niet.’
Iris Muis: ‘Als je dan toch opsporingsalgoritmes wilt gebruiken, neem dan in elk geval ruim de tijd voor een zorgvuldige reflectie’
Maar is het überhaupt wel verstandig om algoritmes te gebruiken voor het opsporen van fraude? Inmiddels is toch wel gebleken dat misdaad niet te voorspellen valt aan de hand van een stel persoonlijke kenmerken, nog los van het feit dat het sowieso verboden is om oneigenlijk onderscheid te maken. ‘Dit type algoritme ligt erg gevoelig’, beaamt Muis. ‘Het risico op ongewenste bijeffecten is veel hoger dan bijvoorbeeld de scanauto’s die parkeerboetes uitdelen. Recentelijk nog kreeg de gemeente Nissewaard een vernietigend oordeel van TNO over een opsporingsalgoritme dat daar werd gebruikt. Dat werkte totaal niet, en het had bovendien een negatieve impact op een kwetsbare groep burgers. En dat geldt eigenlijk voor alle algoritmes die fraude op willen sporen. Ik ben er nog nooit een tegengekomen waarbij de voordelen zouden opwegen tegen de mogelijke negatieve impact op mensen. Als je zo’n opsporingsalgoritme zou willen gebruiken, doe dat dan alleen als de voordelen wel en daadwerkelijk opwegen tegen de mogelijke negatieve gevolgen. En neem in elk geval ruim de tijd voor een zorgvuldige reflectie.’
Goed gesprek
Bouaddi zegt dat die reflectie binnen haar gemeente een heel positief effect heeft gehad. ‘Ambtenaren zijn nu continu met elkaar in dialoog tijdens het ontwikkelproces. Als mijn teamleden of collega’s aan de gebruikerskant risico’s zien dan hebben we daar een goed gesprek over en kijken we hoe het toch anders aangepakt kan worden. Ook dat is een gevolg van de inzet van het IAMA.’
Inmiddels is Rotterdam nog verder gegaan met het instellen van voldoende checks en balances, vervolgt Bouaddi. ‘We hebben een algoritme-expert aangesteld die intern toezicht houdt, zelf onderzoek doet, en bij wie collega’s altijd terecht kunnen met vragen of twijfels over algoritmes. Daarnaast is er, en daar is Rotterdam volgens mij uniek in, een externe algoritmeadviesraad in het leven geroepen. Ook die kan gevraagd en ongevraagd onderzoek doen naar ons algoritmegebruik.’
Myriem Bouaddi: ‘Een algoritme geeft alleen een richting aan. Het is dan aan ambtenaren om steeds kritisch te kijken of die richting ook moet worden gevolgd’
Veel meer op hun bordje
Vraag blijft echter: als fraude-opsporing op basis van persoonlijke kenmerken kan leiden tot discriminatie, zou de gemeente dan niet beter dit type algoritmes helemaal los moeten laten en gewoon het lot laten bepalen wie wel en niet gecontroleerd moet worden? Muis denkt na over deze vraag. ‘Het gaat hier uiteindelijk ook om de effectieve besteding van publiek geld’, zegt ze dan. ‘Vergeet niet dat gemeenten sinds de decentralisatie van 2015 veel meer op hun bordje hebben gekregen zonder dat de budgetten evenredig meegroeiden. Dat betekent dat er gewoon een noodzaak is voor meer efficiëntie en kostenbesparing. Dus ik snap wel waarom gemeentes algoritmes inzetten, en juist daarom is Nederland ook een van de koplopers in het algoritmegebruik. Stel er is jaarlijks budget voor laten we zeggen vierduizend grondige fraudecontroles. Wil je dan dat er vierduizend willekeurige mensen tegen het licht worden gehouden? Daar zouden dan dus mensen tussen zitten bij wie de kans op fraude heel erg klein is. Of wil je dat die controles gerichter worden ingezet en vooral plaatshebben bij degenen bij wie de kans op fraude groter is? Ik weet het antwoord oprecht niet en ben blij dat ik die lastige afweging niet hoef te maken. Liever zou ik hebben dat gemeentes meer budget hadden en op een andere manier fraude opspoorden, maar dat is helaas niet de realiteit.’
‘Een algoritme geeft alleen een richting aan’, reageert Bouaddi. ‘Het is dan aan ambtenaren om steeds kritisch te blijven kijken of die richting daadwerkelijk gevolgd moet worden. We trekken niet direct conclusies maar onderzoeken de aanwijzingen die een algoritme eventueel geeft en kijken dan op basis van feiten wat passende maatregelen kunnen zijn.’
‘Geautomatiseerde besluitvorming is slechts zelden wenselijk’, zegt Muis instemmend. ‘Misschien wel als het gaat om waar en hoe laat het vuilnis in de stad moet worden opgehaald, maar niet bij algoritmes die zoveel impact hebben op de levens van burgers. Dan moet er voortdurend een ethische reflectie zijn, en bovendien ruimte voor de menselijke maat.’
Tegelijkertijd moeten we ook uitkijken dat we niet alleen uit angst gaan handelen, zegt Bouaddi. ‘Natuurlijk zijn er fouten gemaakt. Met grote gevolgen. Maar laten we nou vooral leren van die fouten en kijken hoe we de techniek wel verantwoord kunnen inzetten. Want die techniek biedt ook kansen. Algoritmes maken het werk van de gemeente efficiënter en geven ook het vertrouwen dat de overheid meegaat met de tijd. Doe je dat niet dan raak je op achterstand ten opzichte van het bedrijfsleven. Kijk naar de VS waar relatief weinig gebruik gemaakt wordt van algoritmes. De overheden daar staan op een enorme afstand van de grote techbedrijven. Dat willen we niet in Nederland. En ja, we zullen dan altijd kritisch moeten blijven kijken naar het algoritmegebruik. Van de overheden en ook dat van die grote bedrijven.’ Glimlachend: ‘Want ethiek is inderdaad geen checklist. Dat vink je niet even af.’
Kader: Algoritmeregister
Net als Amsterdam heeft ook Rotterdam een online register met algoritmes die de gemeente gebruikt. Anders dan de hoofdstad publiceert Rotterdam daarin alleen de algoritmes met een hoog risico. Dat waren er tot nu toe vier: waarvan er één niet meer in gebruik is en de andere drie toch geen hoog risico bleken te hebben nadat die nog eens goed bekeken waren met het zogeheten ARA (algoritme risico assessment).
Myriem Bouaddi van de gemeente, zegt dat er een nieuw register is waarin ook de tientallen algoritmes met een laag risico worden opgenomen. Maar dat register is nog niet online gepubliceerd. Bouaddi: ‘Het is de bedoeling dat dat op termijn ook openbaar wordt gemaakt maar daarvoor moet het wel verder worden ontwikkeld. Bovendien zouden we het liefst hebben dat alle Nederlandse gemeentes dan tegelijk vrijgeven welke algoritmes ze gebruiken, ongeacht hun risicoclassificatie, beginnend bij de G4. Dus niet alleen Amsterdam en Rotterdam, maar ook Utrecht en Den Haag. Dat zou een krachtig signaal zijn. En het past bovendien bij de Wet open overheid.’
Kader: IAMA
‘Ambtenaren reageren positief, maar ik weet niet of ze dat ook zijn als ze verplicht mee moeten doen aan een IAMA-training’
In opdracht van het ministerie van Binnenlandse Zaken ontwikkelden Iris Muis en drie andere wetenschappers onder wie hoogleraar fundamentele rechten Janneke Gerards het Impact Assessment Mensenrechten en Algoritmes. Zomer 2021 werd dit zogenoemde IAMA gepubliceerd. Sindsdien kunnen gemeenten en organisaties aan de hand van dit 95 pagina’s tellende document interne discussies voeren over hoe verantwoord hun algoritmegebruik is, en evalueren of hun algoritmes de mensenrechten wel respecteren.
Hoe vaak gemeenten en organisaties hier gebruik van maken, is niet na te gaan. Iedereen kan het document downloaden en het erna wel of niet gebruiken, zegt Muis. Wel vertelt ze veel positieve reacties te krijgen. Ook is er animo voor de IAMA-trainingen die zij en haar collega’s hebben ontwikkeld. ‘Die duren een dag, en inmiddels hebben 75 ambtenaren zo’n training gevolgd’, zegt ze. ‘Onder wie: medewerkers van de Belastingdienst, UWV en de politie, ambtenaren van grotere en piepkleine gemeenten waar zelfs ik nog nooit van had gehoord, terwijl ik nu toch al zes jaar met gemeentes werk.’
Muis denkt dat de animo flink is toegenomen door de schandalen en de negatieve berichten over algoritmes de laatste jaren. ‘Dat heeft het gevoel van urgentie wel gevoed’, meent ze. Tegelijkertijd zegt ze dat de positieve reacties die ze kreeg over het IAMA misschien niet helemaal een representatief beeld geven. ‘De deelnemers aan onze trainingen komen tot nu toe vrijwillig. Recentelijk heeft de Tweede Kamer een motie aangenomen dat een mensenrechten impact assessment verplicht moet worden gesteld. Ik ben benieuwd hoe ambtenaren gaan reageren op de trainingsdag als ze zonder intrinsieke motivatie meedoen.’
Interviewer: Arend Hulshof