Contents
- 1 Herkenning van historische ongelijkheden -Alice Xiang Herkenning van historische ongelijkheden -Alice Xiang
- 2 Beslissingen met hoge inzet
- 3 Hoe op te lossen voor gegevensbias
- 4 Dieper kijken
- 5 De ontbrekende elementen vinden
- 6 Als open source niet genoeg is
- 7 Eerlijk zijn over imperfecte AI
- 8 De toekomst van het gebruik van AI bij besluitvorming
Algoritmische eerlijkheid is een motief dat in onze podcastseries speelt: terwijl we kijken naar AI om ons te helpen bij het nemen van consequente beslissingen waarbij mensen betrokken zijn, hebben gasten de risico's benadrukt dat de geautomatiseerde systemen die we bouwen oude onrechtvaardigheden zullen coderen en dat deze beslissingen te ondoorzichtig kunnen zijn . In aflevering twaalf van de Intel op AI-podcast praat Intel AI Tech Evangelist en gastheer Abigail Hing Wen met Alice Xiang, destijds hoofd van onderzoek naar eerlijkheid, transparantie en verantwoording bij het Partnership on AI, een non-profitorganisatie in Silicon Valley, opgericht door Amazon, Apple , Facebook, Google, IBM, Intel en andere partners. (Alice is nu AI Ethics lead bij Sony.) Met een achtergrond die zowel recht als statistiek omvat, heeft Alice's onderzoek zich gericht op het snijvlak van AI en de wet.
“Veel van de voordelen van algoritmische systemen, als ze goed worden gebruikt, zouden ons helpen problemen op te sporen in plaats van ons te helpen bij het automatiseren van beslissingen.”
-Alice Xiang
Herkenning van historische ongelijkheden
-Alice Xiang
Herkenning van historische ongelijkheden
-Alice Xiang
Algoritmische eerlijkheid is de studie van hoe algoritmen systemisch beter of slechter kunnen presteren voor bepaalde groepen mensen en de manieren waarop historische vooroordelen of andere systemische ongelijkheden door AI kunnen worden bestendigd. Het Partnership on AI spreekt met een aantal spelers, van machine learning-experts tot advocaten, beleidsmakers en compliance officers, over biasdetectie en biasmitigatie om de industrie te voorzien van aanbevelingen en best practices. Een belangrijk onderdeel van dit werkveld is het focussen op de rol die demografische gegevens door de jaren heen hebben gespeeld in de samenleving. In aflevering zeven van de podcast besprak Yeshi Milner hoe het gebruik van dergelijke gegevens zaken als kredietscores heeft gevormd. Hoewel toegang tot kapitaal een grote impact kan hebben op het traject van een leven, is de inzet nog groter wanneer we AI gebruiken om beslissingen te nemen over borgtocht en voorwaardelijke vrijlating.
Voorkeur voor bemonstering is zeker een punt van zorg voor iedereen die een model traint, maar in dit domein is het ontwarren van oorzakelijk verband echt niet eenvoudig. Alice merkt op dat er in de VS onevenredig hoge percentages valse positieven zijn voor zwarte verdachten in vergelijking met blanke verdachten bij het gebruik van risicobeoordelingsinstrumenten. Een deel daarvan is te wijten aan arrestatiegegevens, waar er een hoger basisarrestpercentage is voor zwarte verdachten in vergelijking met blanke verdachten. Die discrepantie is misschien niet alleen te wijten aan misdaadtrends tussen groepen, maar kan ook het gevolg zijn van historische overpolitie van bepaalde gemeenschappen.
Als we deze gegevensbias erkennen, is het belangrijk om te begrijpen hoe dergelijke risicobeoordelingstools elke dag worden gebruikt. Volgens Alice gebruikt bijna elke staat in Amerika op een bepaald moment in het strafrechtelijk proces een soort datasysteem, hetzij tijdens het vooronderzoek, bij veroordeling of bij rolgerelateerde beslissingen. Voor Europeanen zoals ik is de omvang van het Amerikaanse rechtssysteem moeilijk te bevatten, met een opsluitingspercentage dat ongeveer zes keer zo hoog is als dat van landen in West-Europa. (Hier in Ierland hebben we 76 gevangenen per 100.000 van onze bevolking versus 655 voor de VS).
Beslissingen met hoge inzet
Ik doe mijn best om meedogenloos empirisch te zijn, en daarom is het idee om beslissingen met hoge inzetten te systematiseren buitengewoon aantrekkelijk. Ik ben geen persoon met een buikgevoel en zal absoluut met de wiskunde meegaan over wat mijn maag zegt. Maar de ingenieur in mij huivert ook bij de gedachte aan de verantwoordelijkheid die gepaard gaat met het bouwen van dergelijke systemen. Wanneer we een algoritme in het automatische remsysteem van een auto stoppen, in een medische zorgsuite of op het bureau van een rechter, dan kunnen we maar beter een zeer hoge validatielat leggen.
Alice legt uit dat de wildgroei aan risicobeoordelingsinstrumenten voor het strafrecht gedeeltelijk wordt voortgestuwd als een voorgestelde vervanging van borgtocht. Net als bij andere common law-landen, stellen rechters borgtocht vast op basis van de ernst van het misdrijf en de financiële middelen van de verdachte. (Hier in Ierland kan het ook een onafhankelijke borg zijn.) Het is weerzinwekkend dat een beklaagde, die het vermoeden van onschuld geniet, wordt opgesloten, waarbij hij zijn levensonderhoud verliest en mogelijk de voogdij over zijn kinderen en hun huis. Een financieel belang – in Ierland, vaak in de vorm van een onafhankelijke borgstelling van een vriend of familielid van de verdachte – is bedoeld om het belang van de verdachte (vrijheid) in evenwicht te brengen met dat van de samenleving (dat de verdachte voor zijn proces verschijnt) . Net als in de VS zijn onze beklaagden vaak van bescheiden middelen, met borgtocht die dienovereenkomstig is vastgesteld, en zonder de vereiste om daadwerkelijk contant geld ter plaatse te produceren, of zoals in het Amerikaanse systeem van gecommercialiseerde borgsommen.
Risicobeoordelingsinstrumenten zijn bedoeld om verdachten in staat te stellen “op eigen herkenning” vrij te laten (belovend om terug te komen voor het proces), wat betekent dat ze kunnen voorspellen of ze in de tussentijd zullen beledigen. Als arrestatiegegevens worden gebruikt als een proxy voor veroordeling, bestaat het risico dat een arme maar onschuldige beklaagde, die mogelijk eerder opgesloten zat omdat hij niet in staat was contant geld op te halen, in plaats daarvan wordt opgesloten vanwege een maatschappelijke vooringenomenheid die is uitgekristalliseerd als een algoritme.
Hoe op te lossen voor gegevensbias
Gezondheidszorg is een ander voorbeeld van databias in de praktijk dat Alice in de podcast ter sprake brengt. Als een systeem probeert de zorgbehoeften van mensen te voorspellen op basis van een algoritme dat alleen is getraind op de kosten van de gezondheidszorg, dan kan dat systeem de prioriteit weggeven aan patiënten die in het verleden niet de behandeling hebben gekregen die ze nodig hadden en zal dat tot meer ongelijkheid leiden. Nogmaals, dit zal vreemd klinken voor niet-Amerikaanse luisteraars zoals ik, maar in de VS wordt gezondheidszorg heel anders ontvangen en gefinancierd dan het “mediaan-Europese” systeem. Het is dus heel goed mogelijk dat patiënten zonder zorg zijn gegaan vanwege een gebrek aan vermogen om te betalen, en een algoritme zou kunnen “leren” dat een bepaalde diagnose geen verdere behandeling nodig had.
“ ;Een kaart is niet het gebied dat het vertegenwoordigt, maar als het correct is, heeft het een soortgelijke structuur als het gebied, wat het nut ervan verklaart.”
— Alfred Korzybski, Science and Sanity, p . 58.
Als u een ontwikkelaar bent en u ziet vooringenomenheid in uw algoritme, wat nu? Alice raadt aan om uit te zoeken wat de onderliggende vooringenomenheid veroorzaakt. Onze gegevenstabellen komen immers uit een onvolmaakte wereld en “de kaart is niet het territorium”, zoals geleerde Alfred Korzybski zou zeggen. Een persoonlijke held van mij is Ignaz Semmelweis, een 19e-eeuwse Oostenrijkse arts die een zorgwekkende discrepantie ontdekte in het verloskundig ziekenhuis waar hij werkte. Achter de over het algemeen hoge sterftecijfers ging een drievoudig verschil in sterfte tussen rijke moeders en arme moeders schuil. Je moet zeker naar het hele verhaal luisteren. Ik zal het einde hier niet verklappen, maar soms staan de antwoorden gewoon niet in je gegevens en moet je door de gangen van je kliniek lopen om een cruciale, levensreddende observatie te maken.
Databias is een netelig, netelig probleem en er zijn geen gemakkelijke antwoorden. Wanneer we het weer meten, kunnen we onze instrumenten kalibreren en testen op een manier die veel moeilijker is wanneer onze meetmiddelen het gecombineerde resultaat zijn van een reeks beslissingen van politieagenten, officieren van de rechtbank en jury's. Hier in Ierland vormen mannen 87% van onze gevangenen, wat zou kunnen wijzen op een grotere neiging om te beledigen of een grotere onwil om vrouwen aan te klagen, te veroordelen en te veroordelen. (Amerikaanse studies suggereren dat het antwoord een “beetje van beide” is.) Een mogelijke route is om Bayesiaanse technieken toe te passen, die – in sommige omstandigheden – oorzakelijk verband kunnen blootleggen. Dit is echter niet iets wat je in elk land zou moeten doen. In Frankrijk kan het toepassen van dergelijke statistische analyses op rechterlijke beslissingen resulteren in een gevangenisstraf van vijf jaar.
Dieper kijken
Alice stelt voor om de gegevens zelf aan te passen om vooringenomenheid weg te nemen. Door een spreekwoordelijke duim op de weegschaal te leggen, wordt het ingewikkeld. Wie bepaalt precies welke percentages van bepaalde groepen beter vertegenwoordigd moeten worden? Als ik een model zou trainen om recidive onder Ierse paroleen te voorspellen, zouden gegevens over historische arrestaties en veroordelingen (zes keer meer mannelijke gevangenen) waarschijnlijk resulteren in een model dat aanbevolen jonge mannen veel meer vast te houden dan jonge vrouwen. Moet ik dan de gegevens aanpassen zodat vrouwen net zo vaak en even lang worden vastgehouden? Zonder enige empirische basis zou dit nauwelijks ethisch of zelfs legaal zijn.
Bias is echter ook een signaal! Alice haalt het geval aan van een Amerikaans zorgbedrijf dat een model gebruikte om uitkomsten met betrekking tot sepsis te voorspellen. Het bedrijf vond onevenredig slechtere resultaten voor gemeenschappen waar Engels een tweede taal was. In plaats van deze vooringenomenheid te benaderen als louter een technisch probleem waarbij ze een soort van algoritmische interventie moesten gebruiken, konden ze de bronnen in ziekenhuizen waar de gegevens werden gegenereerd en verzameld (zoals mijn held Semmelweis!), nader bekijken. Wat ze aantroffen was in wezen een communicatiefout: er was geen Spaanstalig materiaal voor sepsisbewustzijn en detectie in het ziekenhuis. Het lijkt misschien vreemd dat een datawetenschapper de eerste is die dit probleem (of de ontdekking van Semmelweis) opmerkt, maar de resultaten waren uitstekend: toen Spaanstalige materialen eenmaal in die omgevingen waren geïntroduceerd, begon de kloof tussen verschillende groepen te verkleinen.
De ontbrekende elementen vinden
Alice gelooft dat algoritmische vooringenomenheid voortkomt uit onze parochiale aard en de oogkleppen die worden opgelegd door vooropgezette interpretaties van de gegevens. Soms heb je echt iemand nodig met een ander perspectief. (Ik denk nog steeds met genegenheid aan een meedogenloze empirische stagiaire die we ooit hebben ingehuurd, die veel van onze theorieën tot vernietiging heeft uitgetest.) Alice illustreert haar punt met haar achtergrond in een klein industriestadje in Appalachia, waar een groot deel van de bevolking voor een groot bedrijf. In aflevering vier van de podcast sprak Intel Vice President Sandra Rivera over het gebruik van AI in human resource management voor opportuniteit, om vooroordelen te verminderen en om getalenteerde mensen aan te nemen en te behouden. Zou een in een groot stedelijk gebied ontwikkeld AI-systeem nuttig zijn voor het inhuren van bedrijven in een landelijke regio?
Zoals Alice aangeeft, hebben we de neiging om te denken dat ons gebruik van deze tools wordt gebruikt voor mensen die erg op ons lijken; we zijn vaak onderhevig aan het “straatlichteffect” (op zoek naar onze sleutels waar het licht is, in plaats van waar we ze hebben laten vallen). Als de meeste AI-algoritmen in Silicon Valley worden gebouwd, stelt Alice, dan is het aan de ontwikkelaars om zichzelf te onderwijzen en te erkennen dat ze belangrijke elementen uit andere demografische gegevens missen, een punt dat Rana el Kaliouby ook herhaalde in aflevering elf van de podcast. Ik voeg eraan toe dat ik geloof dat er enorme arbitragemogelijkheden zijn bij het identificeren van eerder over het hoofd gezien talent en dat degene die erachter komt hoe dit te doen een groter bedrijf zal hebben dan LinkedIn. Gezien de snelheid waarmee talent naar de Bay Area toestroomt en de snelheid waarmee immigranten succesvolle Amerikaanse bedrijven vonden, ben ik een langetermijnoptimist op dit gebied.
Als open source niet genoeg is
Een ander probleem met de huidige AI-systemen is dat we geen erg goede tools hebben om de ingewanden van algoritmische tools toegankelijker te maken voor een breder publiek. Als het op verklaarbaarheid aankomt, werkt het open source maken van je code heel goed voor traditionele software, niet zozeer voor AI – zelfs niet als je je dataset weggeeft (als je het kunt weggeven; heel vaak een juridische onmogelijkheid). Deze dekking is niet uniek voor AI. Bijvoorbeeld: hoeveel passagiers op een Airbus zouden een verstandige schets kunnen geven van de omstandigheden waaronder het vluchtmanagementsysteem zal overschakelen naar Alternate Law als gevolg van een storing in de horizontale stabilisator? Maar dat is voor ons geen reden om tevreden te zijn met de status-quo.
Verklaarbaarheid is verre van een opgelost probleem – als we echt zouden begrijpen hoe onze modellen werken, zouden we ze waarschijnlijk niet hoeven te trainen. Maar het gebruik van de tools die nu beschikbaar zijn, kan niet alleen helpen om het vertrouwen van de gebruiker in uw product te vergroten, maar ook om uw team te helpen bij het debuggen van uw modellen. Op zoek naar meer leesvoer? Het Partnership on AI publiceert hun onderzoek zodat iedereen ervan kan leren en gebruiken.
Eerlijk zijn over imperfecte AI
Toch is het niet alleen het openbaar maken van datasets en onderzoek dat zal helpen om AI eerlijker en meer verantwoordelijk te maken, het is eerlijk zijn over de beperking van dergelijke tools en systemen.
Terugkomend op de strafrechtelijke context, benadrukt Alice dat de meeste tools die tegenwoordig worden gebruikt, niet meer dan een nauwkeurigheidspercentage van 60 tot 70% kunnen bereiken. Dit is een moeilijk te begrijpen getal zonder enige context. Hoe verhoudt het zich bijvoorbeeld tot de voorspellingen van deskundige mensen? Maar het is duidelijk een getal dat we moeten onthullen en volgen om de schijn van “machine-onfeilbaarheid” te voorkomen. Ik heb persoonlijk gezien dat gebruikers blindelings machine-aanbevelingen volgden toen ze werden beschreven als algoritmisch, totdat uit latere analyse bleek dat het algoritme het slechter deed dan toeval. Het blootleggen van de beperkingen van uw model maakt deel uit van een eerlijke behandeling van uw belanghebbenden en het motiveren van uw team om het beter te doen!
Dit soort onderscheidingen zijn van het grootste belang. Zoals het gezegde luidt: “The devil is in the details.” Dus hoewel het beëindigen van borgtocht in contanten iets is waarvan veel progressieve groepen geloven dat het een rechtvaardiger rechtssysteem zou creëren, bracht het Partnership of AI een rapport uit waarin het pleitte tegen het gebruik van algoritmische hulpmiddelen voor beslissingen voorafgaand aan het parcours, waarbij het aan de kant stond van groepen zoals Human Rights Watch , maar ook naast verenigingen van borgstellers met een economische prikkel om het huidige systeem in stand te houden.
Hoewel deze AI-systemen niet perfect zijn, ziet Alice ze als potentieel nuttig. In het ideale geval, zegt ze, zouden ze worden gebruikt om rechters te informeren, maar alleen als rechters voldoende zijn opgeleid over hun beperkingen en hoe ze de resultaten correct kunnen interpreteren, en alleen als ontwikkelaars algoritmische vooringenomenheid verminderen en de tools afstemmen op de specifieke rechtsgebieden waar ze worden ingezet .
De toekomst van het gebruik van AI bij besluitvorming
Zelfs nu steeds meer organisaties en experts algoritmische eerlijkheid serieus nemen, maakt Alice zich nog steeds zorgen dat we ons in een situatie bevinden waarin de wetten en het beleid die op algoritmen worden toegepast het voor ontwikkelaars in de praktijk onmogelijk maken om vooringenomenheid op een zinvolle manier te verminderen. Ze ziet dit als een fundamenteel probleem en een bredere spanning in de Amerikaanse samenleving tussen kleurenblindheid en rassenbewustzijn als het gaat om besluitvorming. Terwijl Ierse toelating tot universiteiten bijvoorbeeld 'blind' is (een computer controleert je examenscores, geen interview of essay vereist), gebruiken Amerikaanse universiteiten demografische kenmerken als onderdeel van toelatingsbeslissingen om onevenredige resultaten aan te pakken. (Elke bezoeker van de VS zal worden getroffen door de ongelijkheid in etnische verhoudingen tussen, laten we zeggen, conciërgepersoneel en technische vergaderingen.) Positieve jurisprudentie wordt fel bediscussieerd en slechts een beslissing van het Hooggerechtshof die niet ongeldig wordt verklaard – inderdaad, ik ben er bijna zeker van het zou illegaal zijn in Ierland. Onderwijsverschillen zijn iets minder duidelijk in Ierland, maar zeer aanwezig. In plaats van de toelating tot de universiteit te veranderen, was de remedie hier het verbeteren van het kleuter- en lager onderwijs, zodat alle studenten beter voorbereid zijn op het tweede niveau en de nationale examens die de enige basis vormen voor toegang tot universitaire plaatsen.
Alice merkt ook op dat onderwijs alleen deze problemen niet zal oplossen – diversiteitstrainingen zijn geen vervanging voor een divers team – en wijst op het keerpunt Gender Shades-project van MIT dat aantoonde dat algoritmen voor gezichtsherkenning bepaalde gezichten naar behoren. Net als veel andere gasten op de podcast, gelooft Alice dat de technologie-industrie een meer inclusieve omgeving voor diverse AI-teams moet koesteren, en met het eeuwige tekort aan talent komt de markt haar kant op.
Om meer te leren over Alice's werk, de paper om te lezen is “Explainable Machine Learning in Deployment.”
Als je meer Intel over AI-afleveringen wilt horen met experts uit het hele veld, zoek dan je favoriete streamingplatform om ernaar te luisteren op: https: //www.intel.com/content/www/us/en/artificial-intelligence/podcast.html
Edward Dixon
Data Scientist, Intel
-Alice Xiang
“ ;Een kaart is niet het gebied dat het vertegenwoordigt, maar als het correct is, heeft het een soortgelijke structuur als het gebied, wat het nut ervan verklaart.”
— Alfred Korzybski, Science and Sanity, p . 58.
Data Scientist, Intel