Ger AI -modeller mer originella idéer än forskare?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En ny studie visar att AI -modeller kan generera mer originella forskningsidéer än 50 forskare. Experter utvärderar dessa tillvägagångssätt.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
En ny studie visar att AI -modeller kan generera mer originella forskningsidéer än 50 forskare. Experter utvärderar dessa tillvägagångssätt.

Ger AI -modeller mer originella idéer än forskare?

Ett konstgjord intelligens (AI) -drivet idégeneratorsystem har utvecklat mer ursprungliga forskningsmetoder än 50 forskare som arbetar oberoende i ett nyligen förtryck på ARXIV 1.

De mänskliga och AI-genererade idéerna utvärderades av granskare som inte visste vem eller vad som skapade varje idé. Granskarna bedömde de AI-genererade koncepten som mer spännande jämfört med mänskliga författade idéer, även om AI: s förslag fick något lägre när det gäller genomförbarhet.

Forskarna påpekar emellertid att studien, som ännu inte har granskats med peer-granskningar. Den fokuserade på ett specifikt forskningsområde och krävde mänskliga deltagare att generera idéer spontant, vilket troligen hindrade deras förmåga att producera de bästa koncepten.

Konstgjord intelligens i vetenskapen

Det finns stigande ambitioner, för att undersöka hur stora språkmodeller (LLM) kan användas för att automatisera forskningsuppgifter som Skrivartiklar, Generera kod och Litteraturforskning kan användas. Det har emellertid varit svårt att bedöma om dessa AI -verktyg kan generera nya forskningsmetoder på liknande nivå som människor. Detta beror på att utvärderingen av idéer mycket subjektiv och kräver specialister som noggrant kan utvärdera dem, säger Chenglei SI, medförfattare till studien och en datavetare vid Stanford University i Kalifornien. "Det bästa sättet att kontextualisera sådana funktioner är att göra en jämförelse sida vid sida," säger SI.

Det årslånga projektet är ett av de största ansträngningarna att utvärdera om stora språkmodeller - tekniken bakom verktyg som Chatgpt - Kan producera innovativa forskningsmetoder, förklarar Tom Hope, en datavetare vid Allen Institute for AI i Jerusalem. "Det måste finnas mer arbete så här," säger han.

Teamet rekryterade mer än 100 forskare inom området naturligt språkbearbetning, en gren av datavetenskap som handlar om kommunikation mellan AI och människor. Fyrtio-nio deltagare fick i uppdrag att utveckla och formulera idéer inom tio dagar baserat på ett av sju teman. Som ett incitament fick forskare $ 300 för varje idé, med en bonus på 1 000 dollar för de fem bästa idéerna.

Samtidigt utvecklade forskarna en idégenerator med Claude 3.5, en LLM utvecklad av Anthropic i San Francisco, Kalifornien. Forskarna bad sitt AI-verktyg för att hitta relevanta artiklar om de sju forskningsämnen genom Semantic Scholar, en AI-driven litteratursökmotor. Baserat på dessa artiklar bad forskarna sin AI -agent att generera 4 000 idéer om varje forskningsämne och utvärdera de mest originella.

Mänskliga bedömare

Forskarna tilldelade sedan slumpmässigt de mänskliga och AI-genererade idéerna till 79 granskare, som bedömde varje idé för nyhet, spänning, genomförbarhet och förväntad effektivitet. För att säkerställa att skaparna av idéerna förblev okända för granskarna, använde forskarna en annan LLM för att redigera båda typerna av text så att skrivstilen och tonen standardiserades utan att ändra idéerna själva.

I genomsnitt bedömde granskarna de AI-genererade idéerna som mer originella och spännande än de som skrivits av mänskliga deltagare. Men när de tittade närmare på de 4 000 idéer som producerats av LLM, hittade forskarna bara cirka 200 som verkligen var unika, vilket tyder på att AI blev mindre original ju fler idéer den genererade.

När SI undersökte deltagarna medgav de flesta att idéerna de lämnade bara var genomsnittliga jämfört med de idéer som producerats tidigare.

Resultaten tyder på att LLMS lätt kan generera mer originella idéer än den befintliga litteraturen, säger Cong Lu, en maskininlärningsforskare vid University of British Columbia i Vancouver, Kanada. Huruvida de kan överträffa de mest banbrytande mänskliga idéerna är dock fortfarande en öppen fråga.

En annan begränsning av studien är att de skriftliga de jämförda idéerna redigerades av en LLM, som förändrade språket och längden på inlämningarna, säger Jevin West, en samhällsvetenskaplig datavetare vid University of Washington i Seattle. Sådana förändringar kan ha subtilt påverkat hur granskarna uppfattade nyheten, tillägger han. West tillägger att pitting forskare mot en LLM som kan generera tusentals idéer på några timmar kanske inte är en helt rättvis jämförelse. "Du måste jämföra äpplen med äpplen," säger han.

SI och hans kollegor planerar att jämföra AI-genererade idéer med ledande konferenshandlingar för att få en bättre förståelse för hur LLM jämför med mänsklig kreativitet. "Vi försöker uppmuntra samhället att tänka djupare på hur framtiden ska se ut när AI kan ta en mer aktiv roll i forskningsprocessen," säger han.

  1. SI, C., Yang, D. & Hashimoto, T. Förtryck på Arxiv https://doi.org/10.48550/arxiv.2409.04109 (2024).

Ladda ner referenser

Quellen: