Producerer AI -modeller mere originale ideer end forskere?
En ny undersøgelse viser, at AI -modeller kan generere mere originale forskningsideer end 50 forskere. Eksperter evaluerer disse tilgange.

Producerer AI -modeller mere originale ideer end forskere?
En kunstig intelligens (AI) -drevet idégeneratorsystem har udviklet mere originale forskningsmetoder end 50 forskere, der arbejder uafhængigt af et nyligt fortryk på ARXIV 1.
De menneskelige og AI-genererede ideer blev evalueret af korrekturlæsere, der ikke vidste, hvem eller hvad der skabte hver idé. Anmeldere vurderede de AI-genererede koncepter som mere spændende sammenlignet med menneskelige forfatterideer, skønt AI's forslag scorede lidt lavere med hensyn til gennemførlighed.
Forskerne påpeger imidlertid, at undersøgelsen, der endnu ikke er blevet peer-review, har begrænsninger. Det fokuserede på et specifikt forskningsområde og krævede menneskelige deltagere for at generere ideer spontant, hvilket sandsynligvis hindrede deres evne til at producere de bedste koncepter.
Kunstig intelligens inden for videnskab
Der er Stigende forhåbninger, at undersøge, hvordan store sprogmodeller (LLM'er) kan bruges til at automatisere forskningsopgaver såsom Skrivning af artikler, Generere kode og Litteraturforskning kan bruges. Det har imidlertid været vanskeligt at vurdere, om disse AI -værktøjer kan generere friske forskningsmetoder på et lignende niveau som mennesker. Dette skyldes, at evaluering af ideer meget subjektiv og kræver specialister, der er i stand til omhyggeligt at evaluere dem, siger Chenglei Si, medforfatter til undersøgelsen og en computerforsker ved Stanford University i Californien. ”Den bedste måde at kontekstualisere sådanne muligheder er at foretage en side om side-sammenligning,” siger Si.
Det årlange projekt er en af de største bestræbelser på at evaluere, om store sprogmodeller - teknologien bag værktøjer som Chatgpt - Kan producere innovative forskningsmetoder, forklarer Tom Hope, en computerforsker ved Allen Institute for AI i Jerusalem. ”Der skal være mere arbejde som dette,” siger han.
Holdet rekrutterede mere end 100 forskere inden for naturlig sprogbehandling, en gren af datalogi, der beskæftiger sig med kommunikation mellem AI og mennesker. 42 deltagere fik til opgave at udvikle og formulere ideer inden for ti dage baseret på et af syv temaer. Som et incitament modtog forskere $ 300 for hver idé med en $ 1.000 bonus til de fem bedste ideer.
På samme tid udviklede forskerne en idégenerator ved hjælp af Claude 3.5, en LLM udviklet af antropisk i San Francisco, Californien. Forskerne bad deres AI-værktøj om at finde relevante artikler om de syv forskningsemner gennem Semantic Scholar, en AI-drevet litteratursøgemaskine. Baseret på disse artikler bad forskerne deres AI -agent om at generere 4.000 ideer om hvert forskningsemne og evaluere de mest originale.
Menneskelige bedømmere
Forskerne tildelte derefter tilfældigt de menneskelige og AI-genererede ideer til 79 korrekturlæsere, der vurderede hver idé om nyhed, spænding, gennemførlighed og forventet effektivitet. For at sikre, at skaberne af ideerne forblev ukendte for korrekturlæsere, brugte forskerne en anden LLM til at redigere begge typer tekst, så skrivestilen og tonen blev standardiseret uden at ændre ideerne selv.
I gennemsnit vurderede anmelderne de AI-genererede ideer som mere originale og spændende end dem, der er skrevet af menneskelige deltagere. Da de imidlertid kiggede nærmere på de 4.000 ideer produceret af LLM, fandt forskerne kun omkring 200, der virkelig var unikke, hvilket antydede, at AI blev mindre originale, jo flere ideer den genererede.
Da SI undersøgte deltagerne, indrømmede de fleste, at de ideer, de indsendte, kun var gennemsnitlige sammenlignet med de producerede ideer.
Resultaterne antyder, at LLM'er let kan generere mere originale ideer end den eksisterende litteratur, siger Cong Lu, en maskinlæringsforsker ved University of British Columbia i Vancouver, Canada. Hvorvidt de kan overgå de mest banebrydende menneskelige ideer forbliver imidlertid et åbent spørgsmål.
En anden begrænsning af undersøgelsen er, at de skriftlige ideer, der blev sammenlignet, blev redigeret af en LLM, der ændrede sproget og længden af indsendelserne, siger Jevin West, en samfundsvidenskabelig computerforsker ved University of Washington i Seattle. Sådanne ændringer kan have påvirket subtilt, hvordan korrekturlæsere opfattede nyheden, tilføjer han. West tilføjer, at pittingforskere mod en LLM, der kan generere tusinder af ideer på få timer, muligvis ikke er en helt fair sammenligning. ”Du skal sammenligne æbler med æbler,” siger han.
SI og hans kolleger planlægger at sammenligne AI-genererede ideer med førende konferenceopgaver for at få en bedre forståelse af, hvordan LLM'er sammenlignes med menneskelig kreativitet. ”Vi forsøger at tilskynde samfundet til at tænke dybere over, hvordan fremtiden skal se ud, når AI kan tage en mere aktiv rolle i forskningsprocessen,” siger han.
-
Si, C., Yang, D. & Hashimoto, T. Fortryk på Arxiv https://doi.org/10.48550/arxiv.2409.04109 (2024).