Producerer AI -modeller mere originale ideer end forskere?

Producerer AI -modeller mere originale ideer end forskere?
Et Ideas Generator-system drevet af kunstig intelligens (AI) har udviklet mere originale forskningsmetoder i en nylig prop på arXiv end 50 forskere, der arbejdede uafhængigt af hinanden 1 .
Ideerne genereret af mennesker og AI blev evalueret af eksperter, der ikke vidste, hvem eller hvad gjorde enhver idé. Eksperterne vurderede de AI-genererede koncepter som en spændende sammenlignet med ideerne skrevet af mennesker, skønt AI-forslagene gør lidt værre med hensyn til gennemførlighed.
Forskerne påpeger imidlertid, at undersøgelsen, der endnu ikke er blevet peer-review, har begrænsninger. Hun fokuserede på et specifikt forskningsområde og krævede de menneskelige deltagere at udvikle ideerne spontant, hvilket sandsynligvis skader deres evne til at producere de bedste koncepter.
kunstig intelligens i videnskab
M Automation af forskningsopgaver såsom generer kode og Literature Research kan bruges. Det var dog vanskeligt at vurdere, om disse AI -værktøjer kunne generere friske forskningsmetoder på et lignende niveau som mennesker. Dette skyldes, at evalueringen af ideer Stanford University i Californien. "Den bedste måde at kontekstualisere sådanne færdigheder er at foretage en direkte sammenligning," siger Si.Etårsprojektet er et af de største projekter til evaluering, hvad enten det er store sprogmodeller-teknologien bag værktøjer som ChatGpt -innovative forskningsmetoder, Tom Hope, computerforsker på alle institutter til AI i Jerusalem. ”Der skal være mere arbejde,” siger han.
Holdet rekrutterede mere end 100 forskere inden for naturlig sprogbehandling, et underområde af datalogi, der beskæftiger sig med kommunikation mellem AI og mennesker. Ni -end deltagere fik i opdrag at udvikle ideer og formulere inden for ti dage baseret på et af syv emner. Som et incitament modtog forskerne $ 300 for enhver idé med en bonus på $ 1.000 for de fem bedste ideer.
På samme tid udviklede forskerne en idégenerator med Claude 3.5, en LLM udviklet af antropisk i San Francisco, Californien. Forskerne bad deres AI-værktøj om at finde relevante artikler om de syv forskningsemner via Semantic Scholar, en AI-baseret litteratursøgemaskine. Baseret på disse artikler bad forskerne deres AI -agenter om at generere 4.000 ideer til hvert forskningsemne og evaluere de mest originale.
menneskelig ekspert
Derefter tildelte forskerne tilfældigt de menneskelige og AI -genererede ideer 79 eksperter, der vurderede enhver idé med hensyn til nyhed, spænding, gennemførlighed og forventet effektivitet. For at sikre, at skaberne af ideerne forblev ukendte for eksperterne, brugte forskerne en anden LLM til at redigere begge typer tekst, så skrivestilen og lyden blev standardiseret uden at ændre ideerne selv.
I gennemsnit vurderede eksperterne AI -genererede ideer som mere originale og mere spændende end for menneskelige deltagere. Når man kiggede på de 4.000 ideer produceret af LLM, fandt forskerne kun omkring 200, hvilket var virkelig unikke, hvilket indikerer, at AI blev mindre originale, jo flere ideer den genererede.
Da deltagerne interviewede, indrømmede de fleste, at deres indsendte ideer kun var gennemsnitlige sammenlignet med de producerede ideer.
Resultaterne indikerer, at LLM'er let kan generere ideer end den eksisterende litteratur, siger Cong Lu, forsker for maskinlæring ved University of British Columbia i Vancouver, Canada. Hvorvidt du kan overgå de mest banebrydende menneskelige ideer forbliver imidlertid et åbent spørgsmål.
En yderligere begrænsning af undersøgelsen er, at de sammenlignede skriftlige ideer blev behandlet af en LLM, der ændrede sproget og længden af indsendelserne, siger Jevin West, samfundsvidenskabelig computerforsker ved University of Washington i Seattle. Sådanne ændringer kunne have været subtile, da eksperterne opfattede nyheden, tilføjer han. West tilføjer, at det muligvis ikke er en helt fair sammenligning med at have forskere, der konkurrerer mod en LLM, der kan generere tusinder af ideer på få timer. "Du skal sammenligne æbler med æbler," siger han.
SI og hans kolleger planlægger at sammenligne AI-genererede ideer med førende konferencebidrag for at få en bedre forståelse af, hvordan LLM'er gør det sammenlignet med menneskelig kreativitet. "Vi prøver at stimulere samfundet til at tænke mere på, hvordan fremtiden skal se ud, hvis AI kan påtage sig en mere aktiv rolle i forskningsprocessen," siger han.
- >>
si, C., Yang, D. & Hashimoto, T. preprint på arxiv https://doi.org/10.48550/arxiv.24109 (2024).