6 steg til bruk av kunstig intelligens i offentlig sektor

6 steg til bruk av kunstig intelligens i offentlig sektor

30. april 2019 Lånekassen 5

Bedre kundetjenester og mer effektiv forvaltning

Ikke bare er innovasjon og utvikling nødvendig for å levere fremtidsrettede kundetjenester til en befolkning som er stadig mer avansert i sin bruk av teknologi, men offentlig sektor må i tillegg svare på politiske forventninger om økt digitalisering og effektivisering.

I Lånekassen har vi sett at kunstig intelligens kan hjelpe en allerede godt digitalisert virksomhet som oss, med ytterligere optimalisering av våre oppgaver. Ved å bruke maskinlæring kan vi legge til rette for en bedre og mer effektiv kunde- og saksbehandling på en måte som er positiv både for kunden, samfunnet og Lånekassen.

I dette blogginnlegget gjør vi rede for hvordan Lånekassen brukte maskinlæring for å effektivisere bokontrollen 2018 og gir en stegvis innføring til hvordan vi klarte det.

Hva er maskinlæring?

Maskinlæring er en metode innen kunstig intelligens hvor modeller bygges for å gjenkjenne mønstre og relasjoner mellom forskjellige egenskaper i store datasett. Gjennom trening på et kjent erfaringsgrunnlag vil modellen kunne forutsi, med en viss sannsynlighet, resultatet av nye tilfeller der utfallet ikke er kjent. Mønstrene finnes i komplekse kombinasjoner av mange forklaringsvariabler, som det ikke er praktisk mulig å gjenfinne med manuell innsats.

Bokontroll med maskinlæring

For at kunder skal få omgjort lån til utdanningsstipend, er ett av vilkårene at de ikke bor sammen med foreldrene sine under studiene, og hvert år gjennomfører vi en kontroll der et utvalg kunder blir bedt om å dokumentere hvor de bodde i undervisningsåret.

I 2017 gjennomførte Lånekassen et internt forsøk på om maskinlæring ville ha positiv effekt for utvalg av kandidater for kontroll av bostatus. Resultatet fra forsøket tydet på at vi ved hjelp av maskinlæring kunne redusere antall kontrollerte med hele 75 prosent uten å redusere utfallet av kontrollen.

På bakgrunn av det svært lovende forsøksresultatet skulle utplukket for bokontroll i 2018 derfor bestemmes ved hjelp av maskinlæring.

Maskinlæring i en forvaltningskontekst – steg for steg

Vi håper at Lånekassens erfaringer med maskinlæring kan hjelpe andre med vellykket bruk av kunstig intelligens, og derfor har vi laget en stegvis beskrivelse av vår metode for bruk av maskinlæring for utplukk til kontroll.

1.    Avklar formålet med tiltaket

Å avklare formålet med tiltaket er ikke bare en nødvendighet av hensyn til lovgiving, men det vil også betraktelig forenkle arbeidet og prosessen mot det å skape resultater. I løpet av vår prosjekttid på seks uker var et stort antall deltakere involvert, med ulik faglig bakgrunn og grad av involvering.

Rent juridisk er datagrunnlaget for arbeidet og maskinlæringen en egen behandling av personopplysninger. Formålet med behandlingen er å målrette og effektivisere kontrollen.

2.   Kartlegg relevante egenskaper gjennom situasjonsforståelse

Når formålet med behandlingen er kjent må vi  kartlegge hvilke data som er brukt i behandlingen og hvordan tilgjengelig data kan bidra til å beskrive situasjoner som gjør om noen består kontrollen eller ikke.

Som del av dette arbeidet vurderte vi hvilke personopplysninger som kunne brukes til å finne egenskaper som predikerer en sannsynlighet for at kunden ikke har bodd utenfor foreldrehjemmet i studietiden. Et veiledende prinsipp som kom ut av denne vurderingen var at datagrunnlag for denne typen tiltak skulle begrenses til data skapt og benyttet i forbindelse med søknad og tildeling av den kontrollerte ytelsen. De personopplysningene som vi bruker er forenlige med opprinnelig formål for bruken av opplysningene og relativt nært knyttet til behandlinger i nær fortid.

Vi vurderte også om det er forutsigbart for kundene at deres personopplysninger kan brukes til andre formål. Vi mener det ikke er overraskende for kundene at kontrollen gjennomføres og det er forutsigbart for kundene hvem som kan omfattes.

3.  Ha en bevisst tilnærming til juridiske problemstillinger

Bruk av nye metoder fører til nye juridiske problemstillinger der personvernet til kunden skal ivaretas. Det følgende er eksempler på hensyn som har blitt tatt som del av vårt arbeid med maskinlæring så langt:

Behandlingsgrunnlag. Som det er redegjort for under punkt 1 og 2 tok vi stilling til om uttrekk til bokontroll var en egen behandling og hvilket rettslig behandlingsgrunnlag vi hadde for både utvikling og bruk av modellen i produksjon. Dette er avgjørende for vurderingen av hvilke opplysninger vi kunne anvende til et nytt formål.

Bruk av maskinlæring er profilering. Vi tok stilling til om kunden har anledning til å motsette seg bruken av maskinlæring. Vår konklusjon er at kunden ikke kan motsette seg bruken av maskinlæring. Uttrekk til bokontrollen ved bruk av maskinlæring gir ikke en rettsvirkning eller påvirker kundene i betydelig grad, fordi selve kontrollen er manuell og kunden har klagerett på de vedtak som blir fattet.

Kunden har et informasjonsbehov. Det neste vi tok stilling til er om kunden får god informasjon om kontrollen. Kunden får direkte informasjon om kontrollen i vedtak om støtte, kontrollbrev og kontrollvedtak. Vi har også lagt ut generell informasjon på våre nettsider, omtalt kontrollen i media og holdt flere foredrag om vår bruk av maskinlæring i uttrekket. Samlet mener vi at kunden får god informasjon om kontrollen.

Kunden har rett på innsyn. For å møte kundens rett til innsyn i behandlingen av personopplysningene vurderte vi i hvordan vi skal kunne gi kunden relevant informasjon om den bakenforliggende logikken for modellen for uttrekket, samt betydningen og de forventede konsekvensene behandling kan ha for kunden.

Vi har gjennomført en risikovurdering og iverksatt tiltak som skal sikre at kundens personvern ivaretas på en god måte. Det er ikke høy risiko for kundens personvern, så en personvernkonsekvensvurdering er ikke nødvendig.

4.  Etabler en arbeidsbenk for kvalitet og sammenstilling av data

Data benyttet som grunnlag for maskinlæring har en helt annen form enn data slik den er lagret i produksjonssystemer. Videre er det en omfattende prosess å klargjøre og kode data, som må gjentas flere ganger. For å la flere jobbe samtidig med klargjøring av data fra ulike kildesystemer ble det etablert en arbeidsbenk for innsamling, klargjøring og analyse av datagrunnlaget.

Erfaringsdata må videre kunne sammenstilles med fersk data på en slik måte at de beskriver det samme. Det kan bety at datoer konverteres til relative tidspunkt, eller at beløp inflasjonsjusteres eller kodes. I tillegg til data for den aktuelle saken kan en benytte ekstern referansedata for å sette kontekst som gjør det mulig å sammenligne like fenomener som uttrykkes forskjellig.

Et viktig grunnlag for å ha en effektiv klargjøringsprosess er orden i eget hus. Det betyr at vi må ha kunnskap om hvilken data vi har, hvor den kommer fra, hvor den blir brukt og hva den betyr. Vi må også sikre at tilsynelatende like data som er lagret på ulike tidspunkt betyr det samme.

5.  Invester tid i dataanalyse og modellbygging

Når datasettet begynner å komme på plass kan analysen for å forstå datagrunnlaget og modellbyggingen begynne. Her gjelder det å finne egenskaper i datagrunnlaget som gir høyest forklaringskraft, og finne ut hvordan variabler må kodes og grupperes for at de ikke skal fremstå som støy i modellen.

Modellen vi benyttet var basert på en Gradient Boosting- teknikk, som igjen er basert på beslutningstrær (Decision Trees). I Gradient Boosting kan man velge et antall iterasjoner man ønsker å kjøre. Gjennom flere iterasjoner kan modellen lære seg egenskaper og videreføre læringen til neste iterasjon. Modellen setter sammen mange beslutningstrær, som hver for seg øker eller reduserer sannsynlighet for det utfallet som modellen er bygd for å forutsi. Dette er en velkjent maskinlæringsmetode som er egnet for klassifisering.

6. Legg til rette for senere kjøring og læring

Etter at modellen var ferdig og hadde gitt sin vurdering av sannsynlig utfall av kontrollen, måtte vi beslutte hvor mange som skulle kontrolleres. Det interne forsøket på testdata der det faktiske resultatet var kjent, antydet at vi kunne redusere utvalget betydelig og samtidig kontrollere med like godt resultat. Likevel visste vi at oppførsel endrer seg og at de som ble kontrollert året før ikke nødvendigvis hadde samme oppførsel som de som nå var kandidater for kontroll.

I og med at dette selv i produksjon ville være et eksperiment som vi var avhengig av å lære av, kunne vi derfor ikke utelukkende plukke ut kandidater ved hjelp av maskinlæring. En kontrollgruppe ble etablert for å tjene to formål;

  • være i stand til å se om maskinlæring hadde en reell effekt opp mot tilfeldig utvalg.
  • ha mulighet til ny læring som følge av endring i oppførsel som kunne bli brukt ved trening av modell for neste kjøring.

Med utgangspunkt i disse behovene ble det valgt å benytte en relativt stor kontrollgruppe for å sikre signifikante målinger selv for en gruppe med så lav forventet treffprosent som kontrollen hadde. Det endelige utvalget bestod derfor av 15 000 kandidater plukket med maskinlæring og 10 000 kandidater plukket tilfeldig og med første prioritet.

Ved eventuell senere kjøring ville behovet for å plukke kontrollgruppe vært annerledes gitt at en stolte på metoden, hvor behovet da kun ville være å få ny læring fra kandidater som modellen i utgangspunktet ikke vurderte som relevante.

Resultater og gevinstrealisering

Etter at kandidatene var plukket ut startet den manuelle kontrollen, og ikke før den nærmet seg slutten var vi i stand til å analysere resultatene.

Resultatene fra kontrollen viste at maskinlæringsutplukket var dobbelt så effektivt som det tilfeldige utvalget til å finne studenter som har oppgitt uriktige opplysninger om bosted – uavhengig av årsak. Det ble avdekket like mange avvik som året før, men antallet som ble kontrollert var nesten halvert.

Gevinstene med denne typen innovasjon er mange. Selve bokontrollen 2018 sørget for at 38,4 millioner kroner ikke ble feilaktig gjort om til stipend, mens bruken av maskinlæring i prosessen gjorde at vi kunne bruke midlene tildelt til kontrollen mer effektivt ved å redusere behovet for manuell saksbehandling. For kundenes del måtte færre studenter bruke tid på å sende inn dokumentasjon, noe som reduserte antall henvendelser og ga mer fornøyde kunder.

Veien videre

I tillegg til å forbedre vårt arbeid med bruk av maskinlæring for utplukk til bokontroll, jobber vi videre med intern utforsking på ulike former for bruk av avansert analyse, for å kunne forstå og forutsi utfall av interne arbeidsprosesser, og gjennom det støtte og effektivisere ulike deler av saksbehandlingen

Forfattere
Gustav Aagesen, leder for data og informasjonsforvaltning
Liv Simonsen, fagdirektør
Johan Fu, leder team kunnskap og analyse
Kristian Hegertun, leder utredning, støttebudsjett og regel

5 kommentarer

  1. Trond Arve Wasskog sier:

    Takk for kjempebra artikkel, veldig bra at Lånekassen er åpne med tilnærming og vurderinger!

    En ting som jeg (og sannsynligvis de fleste som jobber med dette i offentlige virksomheter) er nysgjerrig på: «Det er ikke høy risiko for kundens personvern, så en personvernkonsekvensvurdering er ikke nødvendig.»

    Kan dere utdype denne vurderingen? Ser at at Lånekassen har hjemmel, brukeren er informert, og at dere har vært flinke til å fortelle om hva dere gjør eksternt, og er enig i at det er lav risiko for «fysiske personers rettigheter og friheter».

    Samtidig står følgende i Datatilsynets veileder «Når er det «høy risiko»?» https://www.datatilsynet.no/regelverk-og-verktoy/veiledere/vurdering-av-personvernkonsekvenser/?id=10362

    > Eksempler på formål som er av en inngripende art er:
    > * kontrollformål (for eksempel skatt, NAV, toll, politi, forsikring)

    Antar Lånekassen har samarbeidet med Datatilsynet i denne sammenhengen, så det hadde vært interessant for flere å vite mer om denne vurderingen.

    • webmaster sier:

      Hei Trond!

      Takk for hyggelig tilbakemelding, og for spørsmål. Vår fagdirektør Liv Simonsen kommer tilbake til deg med utdypende svar ila denne uken.

      Ha en strålende dag!
      Mvh Lånekassen

      • Trond Arve Wasskog sier:

        Hei! Venter i spenning 😉 Ikkeno stress altså, bare en vennlig påminnelse.

        • webmaster sier:

          Hei Trond!

          Igjen, så hyggelig at du likte bloggen og takk for godt spørsmål!

          Dersom vi hadde brukt kunstig intelligens til å gjennomføre vilkårsprøvingen er det sannsynlig at vi ville ha vurdert risikoen som høy jf. datatilsynets veileder. Poenget er at maskinlæring ikke blir brukt til vilkårsprøving i kontrollen. Som vi beskriver er vår vurdering at bruken av maskinlæring er en egen behandling der formålet er å målrette og effektivisere kontrollen. Selve kontrollen herunder vilkårsprøvingen av bostatus er manuell der formålet er vurdering av vilkår for retten til utdanningsstipend. Vi mener derfor at formålet med bruk av maskinlæring til uttrekket ikke er inngripende.

          Vi har ikke tatt initiativ til å forhåndsdrøfte saken med Datatilsynet, men de er kjent med våre vurderinger bl.a gjennom foredrag vi har hatt for Norsk forening for jus og edb der Datatilsynet var tilstede og vi har hatt erfaringsutvekslingsmøte om bruk av maskinlæring på mer generelt grunnlag.

          Vi jobber nå med hvordan maskinlæring med statistisk analyse potensielt kan effektivisere deler av saksbehandlingen, og vi vil da vurdere om vi anser personvernrisikoen som høy ved hver enkelt behandling dette ville innebære.

          Ta gjerne kontakt hvis du vil diskutere dette nærmere, eller har flere spørsmål 🙂

          Vennlig hilsen Lånekassen

  2. C sier:

    Veldig fin artikkel!

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.