Produceren AI-modellen originelere ideeën dan onderzoekers?
Uit een nieuwe studie blijkt dat AI-modellen meer originele onderzoeksideeën kunnen genereren dan vijftig wetenschappers. Deskundigen evalueren deze benaderingen.

Produceren AI-modellen originelere ideeën dan onderzoekers?
Een door kunstmatige intelligentie (AI) aangedreven ideeëngeneratorsysteem heeft originelere onderzoeksbenaderingen ontwikkeld dan 50 wetenschappers die onafhankelijk werken in een recente preprint over arXiv 1.
De door mensen en AI gegenereerde ideeën werden geëvalueerd door recensenten die niet wisten wie of wat elk idee had bedacht. Recensenten beoordeelden de door AI gegenereerde concepten als spannender in vergelijking met door mensen geschreven ideeën, hoewel de suggesties van de AI iets lager scoorden op het gebied van haalbaarheid.
De wetenschappers wijzen er echter op dat de studie, die nog niet door vakgenoten is beoordeeld, beperkingen kent. Het concentreerde zich op een specifiek onderzoeksgebied en vereiste dat menselijke deelnemers spontaan ideeën ontwikkelden, wat waarschijnlijk hun vermogen om de beste concepten te produceren belemmerde.
Kunstmatige intelligentie in de wetenschap
Er zijn stijgende ambities, om te onderzoeken hoe grote taalmodellen (LLM's) kunnen worden gebruikt om onderzoekstaken zoals Artikelen schrijven, Code genereren En Literatuuronderzoek kan worden gebruikt. Het was echter moeilijk om te beoordelen of deze AI-instrumenten nieuwe onderzoeksbenaderingen kunnen genereren op een vergelijkbaar niveau als mensen. Dit komt door de evaluatie van ideeën heel subjectief en vereist specialisten die ze zorgvuldig kunnen beoordelen, zegt Chenglei Si, co-auteur van het onderzoek en computerwetenschapper aan de Stanford University in Californië. “De beste manier om dergelijke capaciteiten te contextualiseren is door ze naast elkaar te vergelijken”, zegt Si.
Het een jaar durende project is een van de grootste inspanningen om te evalueren of grote taalmodellen de technologie achter tools leuk vinden ChatGPT – kan innovatieve onderzoeksbenaderingen opleveren, legt Tom Hope uit, een computerwetenschapper aan het Allen Institute for AI in Jeruzalem. “Er moet meer van dit soort werk komen”, zegt hij.
Het team rekruteerde ruim honderd onderzoekers op het gebied van natuurlijke taalverwerking, een tak van de informatica die zich bezighoudt met de communicatie tussen AI en mensen. Negenenveertig deelnemers kregen de opdracht om binnen tien dagen ideeën te ontwikkelen en te formuleren op basis van een van de zeven thema's. Als stimulans ontvingen onderzoekers $300 voor elk idee, met een bonus van $1.000 voor de vijf beste ideeën.
Tegelijkertijd ontwikkelden de onderzoekers een ideeëngenerator met behulp van Claude 3.5, een LLM ontwikkeld door Anthropic in San Francisco, Californië. De onderzoekers vroegen hun AI-tool om relevante artikelen over de zeven onderzoeksonderwerpen te vinden via Semantic Scholar, een door AI aangedreven literatuurzoekmachine. Op basis van deze artikelen vroegen de onderzoekers hun AI-agent om over elk onderzoeksonderwerp 4.000 ideeën te genereren en de origineelste te evalueren.
Menselijke beoordelaars
De onderzoekers hebben de door mensen en AI gegenereerde ideeën vervolgens willekeurig toegewezen aan 79 reviewers, die elk idee beoordeelden op nieuwheid, opwinding, haalbaarheid en verwachte effectiviteit. Om ervoor te zorgen dat de makers van de ideeën onbekend bleven voor de reviewers, gebruikten de onderzoekers een andere LLM om beide soorten tekst te redigeren, zodat de schrijfstijl en toon gestandaardiseerd werden zonder de ideeën zelf te veranderen.
Gemiddeld beoordeelden de recensenten de door AI gegenereerde ideeën als origineler en spannender dan de ideeën die door menselijke deelnemers waren geschreven. Toen ze echter nader keken naar de 4.000 ideeën die door LLM werden geproduceerd, vonden de onderzoekers er slechts ongeveer 200 die echt uniek waren, wat erop wijst dat de AI minder origineel werd naarmate er meer ideeën werden gegenereerd.
Toen Si de deelnemers ondervroeg, gaven de meesten toe dat de ideeën die zij indienden slechts gemiddeld waren vergeleken met de ideeën die in het verleden werden geproduceerd.
De resultaten suggereren dat LLM's gemakkelijk originelere ideeën kunnen genereren dan de bestaande literatuur, zegt Cong Lu, een machine learning-onderzoeker aan de Universiteit van British Columbia in Vancouver, Canada. Of ze de meest baanbrekende menselijke ideeën kunnen overtreffen, blijft echter een open vraag.
Een andere beperking van het onderzoek is dat de vergeleken schriftelijke ideeën zijn geredigeerd door een LLM, waardoor de taal en de lengte van de inzendingen zijn veranderd, zegt Jevin West, een sociaal-wetenschappelijke computerwetenschapper aan de Universiteit van Washington in Seattle. Dergelijke veranderingen kunnen op subtiele wijze hebben beïnvloed hoe recensenten de nieuwigheid hebben ervaren, voegt hij eraan toe. West voegt eraan toe dat het geen helemaal eerlijke vergelijking is om onderzoekers tegenover een LLM te plaatsen die binnen een paar uur duizenden ideeën kan genereren. “Je moet appels met appels vergelijken”, zegt hij.
Si en zijn collega's zijn van plan om door AI gegenereerde ideeën te vergelijken met toonaangevende conferentiepapers om een beter inzicht te krijgen in hoe LLM's zich verhouden tot menselijke creativiteit. “We proberen de gemeenschap aan te moedigen om dieper na te denken over hoe de toekomst eruit zou moeten zien als AI een actievere rol kan spelen in het onderzoeksproces”, zegt hij.
-
Si, C., Yang, D. & Hashimoto, T. Preprint bij arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).