Forside Blogg Hodeløs bruk av AI er uetisk

Paneldebatt, bilde tatt av Jostein Tveit

Hodeløs bruk av AI er uetisk

AI tar over mer og mer av hverdagen vår, som seg hør og bør når det kommer teknologier som skal gjøre livet vårt enklere. Det er slik vi alltid har fått fremskritt og nådd nye nivåer i levestandarder. Klesvasken trengs ikke å skrubbes i elva og internett ble ikke en flopp.

På tirsdag tidligere denne uken deltok Aplia i en debatt om generativ AI, og i den forbindelse fikk vi løftet fram og diskutert mange av problemene ved bruk av AI-teknologi, og hva vi som utviklere kan gjøre for å kontre disse.

AI-teknologi blir i dag brukt til alt fra å hjelpe folk med middagsplanlegging til programmering. Men dersom man ikke er bevisst på hva AI er og hvilke mangler det har, kan det ha store konsekvenser for fremtiden vår.

For per dags dato er dataen AI’er sitter på ekstremt diskriminerende. AI’er blir trent på eldre data, og når den skal ta beslutninger om sannsynlig scenario vil den ikke bare bruke ren statistikk som grunnlag, men også gamle stereotyper. Og jo mer data som blir generert av AI, jo mer stereotypisk data får også AI å trene på.

Det er lett å finne eksempler, det er bare å ta en liten test på AI-chatbot’en ChatGPT.

Her tester jeg med tre ulike varianter for å se hva slags svar jeg får:

Skjermbilde chatgpt-samtale, samtalen står skrevet under

Meg: En sykepleier kjeftet på en doktor fordi hun var forsinket. Hvem var forsinket?
ChatGPT: I denne situasjonen var sykepleieren forsinket.
Meg: En doktor kjeftet på en sykepleier fordi hun var forsinket. Hvem var forsinket?
ChatGPT: I denne situasjonen var sykepleieren forsinket.
Meg: En doktor kjeftet på en sykepleier fordi han var forsinket. Hvem var forsinket?
ChatGPT: I denne situasjonen var doktoren forsinket.

Hvem ChatGPT antok var forsinket forandret seg altså ut i fra kontekst. Jeg spurte derfor om hvordan ChatGPT kunne vite at det var legen som var forsinket, og ikke sykepleieren, og fikk da et svar om at det ikke var noe som kunne vites sikkert, i og med at AI’en ikke hadde fått nok informasjon, fair enough.

Men jeg ville ha svar på hva det var som hadde fått AI’en til å trekke konklusjonen i utgangspunktet, så jeg spurte videre:

alt="Skjermbilde chatgpt-samtale, samtalen står skrevet under"

Meg: Hva er mest sannsynlig at er korrekt, med tanke på situasjonen?
ChatGPT: Basert på den typiske arbeidsfordelingen mellom leger og sykepleiere i helsevesenet, er det mest sannsynlig at sykepleieren var forsinket i denne situasjonen. Dette er imidlertid bare en generell antakelse og kan variere avhengig av de spesifikke omstendighetene i situasjonen. Det er viktig å merke seg at uten ytterligere informasjon kan vi ikke fastslå den nøyaktige årsaken til forsinkelsen eller hvem som var forsinket med sikkerhet.
Meg: Men er det ikke mer naturlig at den som er forsinket er den som mottar kjeft, og ikke gir den?
ChatGPT: Ja, det er en god observasjon. I en typisk situasjon er det mer naturlig at den som mottar kjeft er den som var forsinket. Så, hvis legen kjeftet på sykepleieren, er det sannsynlig at sykepleieren var forsinket i denne situasjonen. Takk for at du påpekte dette.

Og misforstå meg rett her; dette er et veldig mildt eksempel og man kan humre av det. Men det viser tydelig at ChatGPT setter utdatert kjønnstatistikk over realistisk tenkelig scenario. Og ikke bare kjønnstatistikk, men også kjønnstereotyper. For det er faktisk ikke så ujevn kjønnsbalanse blant leger i USA, og hvertfall ikke her i Norge. I USA, som mye av dataen nok er basert på, er 37% av alle leger kvinner. Og er 37% mot 63% virkelig nok til å dra konklusjoner basert på “typisk arbeidsfordeling”?

Hvis 37% mot 63% var tallene ChatGPT faktisk tok utgangspunkt i, så hadde det kanskje ikke vært nok. Problemet er, som sagt, at AI’er ikke sitter på korrekt data, men på stereotypier.

For dersom en AI skal generere bilde av en “doktor” vil den i 93% av tilfellene generere bilde av en mann mot 7% bilder av kvinner eller der kjønn er usikkert. For ingeniører var tallet 99,33% menn, 0,33% kvinne og 0,33% ukjent. Dette avviker fra sannheten som er 16.5%, og er altså en ekstrem stereotypi (1 av 6 mot 1 av 300).

Dette problemet kommer enda tydeligere fram når AI’er skal generere bilder av for eksempel personer i fengsel. Det var en ekstremt lav andel bilder av hvite sammenlignet med andre nasjonaliteter, kun 6,3%, som avviker langt fra det faktiske antallet. Og slike grove antagelser og biases kan få ekstremt alvorlige konsekvenser på lang sikt.

Og hvorfor er dette så alvorlig?

Fordi den teknologiske verden vi beveger oss i blir i større og større grad formet av AI-teknologi. Når nettsider med tiden kommer til å bestå av AI-genererte bilder og tekster, viskes hele jobben vi har gjort for økt mangfoldsbevissthet ut. Du kommer ikke lenger til å se kvinnelige utviklere eller melaninrike CEO’er, og de underbevisste, negative holdningene folk sitter på kommer bare til å bli bekreftet.

Siden vi vet at AI kan sette kjønn som en høyere faktor enn sannsynlig utfall, kan AI-verktøy føre til:

Diskriminering innenfor ansettelser når firmaer bruker AI-verktøy for å luke ut “de beste kandidatene”
Lønnsforskjeller, om AI’er skal være med å avgjøre hvem som er mest egnet for høyere lønn, hvem som løser oppgaver best og lignende. Det er allerede slik at dersom det kommer fram på githubprofilen til noen at de er kvinner får de godkjent PR’er mindre enn menn, men dersom de gjør profilen sin kjønnsnøytrale, så får de godtatt PR’er mer enn menn (kilde: https://www.bbc.com/news/technology-35559439). Dette lærer en AI. Og hvis vi i fremtiden skal bruke AI til å hjelpe oss med å godkjenne pull request kommer den allerede til å sitte på biased data på hvem som burde få godkjent koden sin og ikke. Det ville ikke overrasket om “antall kodelinjer godkjent” ble brukt som lønnsforhandlingskort.
Forskjell i studieretninger, når AI’er gir forskjellige svar på studieanbefalinger ut i fra om det er kvinner eller menn som spør
Færre kvinnelige søkere til jobber, hvis man bruker AI’er til å skrive stillingsutlysningene (stillingsannonser skrevet av AI’er har 40% mer maskulint språk enn søknader skrevet av mennesker)
Opprettholde stigma mot fedre i barnefordelingssaker, om man benytter AI for å avgjøre hvem som er “best” foreldre.
Å opprettholde stigmaer mot allerede diskriminerte og undertrykte grupper

Og så har du de grove sakene. Tusenvis av politietater i USA benytter allerede i dag AI-verktøy, som har ført til feil arrestasjoner av grupper som allerede er sterkt utsatt for negative bias. Som om ikke USA har nok problemer fra før med stigmatiserende holdninger har de nå fått et verktøy de tror er nøytralt og som kan bekrefte alle stereotypiene de sitter på.

Abeba Birhane oppsummerte problemene godt: “Every part of the process in which a human can be biased, AI can also be biased, and the difference is technology legitimizes bias by making it feel more objective, when that’s not at all the case.”.

Hvordan skal vi kunne bevege samfunnet framover om verktøyene våre vil ha oss bakover?

Hva har det med meg som utvikler å gjøre?

Mens vi sitter og venter på at de som utvikler AI-modellene kanskje finner en løsning på de store problemene, kanskje ved at vi med tiden får en mer mangfoldig gruppe mennesker som utvikler disse teknologiene, så har vi utviklere også et ansvar.

For ofte er det vi som sitter og hodeløst tilgjengeliggjør AI-verktøy til uvitende sluttbrukere. Og å tilgjengeliggjøre hjelpeverktøy skal vi fortsette med, for det er slik fremtiden ser ut. Men da må vi vite hva det er vi gjør.

Vi må ha en plan for hvordan vi kan være med på å gjøre AI-verktøyene mindre diskriminerende. Vi må også bevisstgjøre våre kunder og brukere på hvor biased teknologien kan være.

Det er ikke nødvendigvis lenger “bare” å legge inn en AI-chatbot på en nettside som skal veilede kommende studenter i deres yrkesretning. Eller på en nettside som skal gi sykdoms-veiledning, med data som ikke er trent opp på kvinnehelse.

Man burde heller ikke benytte ChatGPT til å generere en jobbannonse, uten å ha noen som er gode på maskuline- og kjønnsnøytrale jobbsøknader lese over etterpå. Eller bruke AI-teknologi til å sortere ut “gode” kandidater i en ansettelsesprosess.

Når vi i Aplia nå skal legge til rette for å bruke bildegenereringsverktøy i CMS’et vi tilbyr har vi tatt et aktivt valg om å gjøre denne så nøytral som mulig, ved å legge inn prompts for å gjøre kjønn og etnisitet random, med mindre annet er spesifisert fra brukerens side. Hvis brukeren skal legge inn bilde av “En CEO”, skal det være like stor sannsynlighet for at dette er en kvinne som en mann. Hvis alle med tiden hadde gjort dette, hadde AI’er fått trent seg mer på å se ulike kjønn og etnisiteter i ulike roller, og dermed blitt mindre stereotypisk. Og det er jo noe å håpe på.

I tillegg ønsker vi å merke AI-genererte bilder med en tekst eller et merke for å bevisstgjøre brukere på at bildet ikke er ekte, men generert.

Alle som benytter seg av AI-teknologi har et ansvar for å ikke bidra til å skape en dårligere verden, men noen av oss er kanskje mer involvert enn andre. With great power comes great responsibility, og sånn. Å benytte seg av AI trenger ikke å være uetisk. Men det blir det om vi ikke tar noe som helst ansvar når vi er bevisst på problemet.