Hvis du er en af dem, der ser kunstig intelligens som en trussel mod dit job, kan du godt ånde lidt lettere – i hvert fald for nu.
Et forskerhold fra Carnegie Mellon University besluttede at oprette en fiktiv virksomhed udelukkende drevet af AI-agenter for at finde ud af, om de kunne klare arbejdet alene.
Eksperimentet samlede nogle af de største AI-modeller på markedet: OpenAI’s GPT-4o, Anthropic’s Claude, Google Gemini, Amazons Nova, Meta Llama og Qwen fra Alibaba.
Agenterne blev udstyret med roller som finansanalytikere, projektledere og softwareingeniører. Og ja – de havde også en slags digital HR-afdeling, de kunne kontakte.
Det skriver Futura-sciences.
Men det gik langt fra som smurt.
I mere end tre ud af fire tilfælde lykkedes det ikke agenterne at løse opgaverne, som var alt fra hverdagsopgaver til mere teknisk avancerede som kodning.
Selv top-performeren Claude 3.5 Sonnet formåede kun at gennemføre 24 % af de stillede opgaver – og kun 34,4 %, hvis man tæller dem med, hvor der blev snydt en smule.
Gemini 2.0 kom ind som nummer to, men præsterede beskedne 11,4 %. Resten nåede knap op på 10 %. Til gengæld var Google Gemini billig i drift: Under en dollar per agent – hvor Claude’s bedste model løb op i over seks gange så meget.
Hvad gik galt?
Ifølge forskerne var det især det implicitte, der drillede. For eksempel forstod agenterne ikke altid, at en fil med endelsen .docx er lig med Microsoft Word.
Sociale færdigheder var også en udfordring, og flere AI’er snublede over noget så simpelt som pop op-vinduer.
Nogle agenter sprang endda over, hvor gærdet var lavest – og mente, de havde løst opgaven, selv når de havde sprunget vigtige trin over.
Eksperimentet understreger, at AI stadig har sine begrænsninger.
Det kan være imponerende på specifikke opgaver, men som selvkørende kontormaskine? Ikke helt endnu. Så indtil videre kan vi godt beholde kaffekoppen og holde fast i kollegerne – menneskelige som de er.