Teknologi / 3 minutter / 8. juni 2021

En skamfull statistikers flørt med auto ML

Auto ML har alltid gitt meg frysninger. Det samme har low-code ML, eller til og med no-code ML.

Nora Gjøen-Gjøsæter

Data scientist

Jeg får gåsehud og Fluenes herre-assosiasjoner når jeg tenker på hodeløs bruk av maskinlæring. Uten en eneste kritisk tanke om hva modellene egentlig beskriver, og hvilke antagelser som ligger til grunn, er det vanskelig å se for seg at ting går bra.

Jeg har sett et grusomt dra-og-slipp-univers med ferdige oppsett, hvor du ikke vet hvilke modellklasser som kastes i ilden. Du vet ingenting om hvordan variablene håndteres eller hvilke parametere som optimeres, og du blir i essensen tvunget til å stå på utsiden av en stor, lukket, og skummel boks.

I en verden hvor metrikkene er avgjort på våre vegne, og en må stole på herr Robot, har den stolte statistikeren i meg følt seg så fremmed. Jeg har hånet alle hans løfter. Jeg har aldri følt meg trygg på hans evne til å gjøre gode valg basert på kun et datasett og en standardisert målemetodikk.

For hva vet vel han om å håndtere ubalanserte data, om fornuftige transformasjonssteg, og probabilistisk modellering? Hvilket grunnlag har han for å forklare eller forstå prosessene som ligger bak modellen han slenger i ansiktet mitt? Og hvorfor i all verden skal jeg ta del i hans verden?

Har jeg tenkt

Men i det siste har jeg begynt å se en ny side av herr Robot. Jeg snublet i han i en uventet sammenheng, og forstod plutselig at jeg vil bli bedre kjent likevel. Han hadde begynt å jobbe sammen med et godt system for sporing og logging. Og jeg skjønte at han kanskje ikke er en kjip fyr som skal skjule hele sin agenda. Han delte nærmest alt han drev med - velvillig!

Og da er ting plutselig annerledes. Da er han ikke den jeg trodde. Når nye verktøy også gjør det enklere å forklare både modellene han forkaster og modellene han ender opp med å velge, er det vanskelig å fortsette å le av han.

Jeg innrømmer gjerne at det er litt småflaut å snakke om denne betattheten. Jeg vil påstå at Data Scientister flest, om vi kan tillate oss en generalisering under en småklein paraplytittel, deler min skepsis. I alle fall de av oss med mest matematikk i bunn.

For vi har en bakgrunn som maskinen i maskinlæring. Vi har tegnet regresjonslinjen med penn og papir. Vi har bevist hvorfor ting konvergerer, og hvorfor det ikke gjør det, og når vi bytter litt forventningsskjevhet mot lavere varians.

Vi forstår – altså gjør vi

Men det er ikke sikkert vi bør. Kanskje er det greit å redistribuere noe av tiden fra standard modelleringsoppgaver til noe mer hensiktsmessig. Jeg er uansett ikke redd for at han skal erstatte meg.

For han må fortsatt ha data han kan forstå. Det vil som alltid være behov for å kommunisere en korrekt tolkning av resultatene hans. Han trenger gode rammevilkår med riktige ressurser og god prosesshåndtering. Noen av problemene er simpelthen for komplekse for han. Og i mange tilfeller er det faktisk like mye jobb å finne ut hvilken oppgave han skal løse som det er å løse selve oppgaven.

Roboten trenger også meg

Og jeg vil ikke være ingeniøren som nekter å ta i bruk datamaskinen eller syersken som følte håpløshet ved synet av Spinning Jenny. Jeg vil nyte fremskrittene som gjør at jeg oftere kan se på og smake grøten, i stedet for å bo langt nedi den. Jeg må uansett slå på platen, vaske kjelen og finne ingrediensene selv.