Natur.wiki Logo
  • Gesundheit und Ernährung
  • Heilpflanzen und Kräuterkunde
  • Themen
    • Allgemein
    • Fachartikel
    • Hausmittel
    • Natürliche Medizin
    • Interessant und Hilfreich
    • Medizin und Forschung
    • Naturheilkunde bei Tieren
    • Psychotherapie
    • Tipps, Tricks und Rezepte
    • Yoga
  • Verzeichnis
  • FAQ
  • Studien
  • Lexikon
  1. Home
  2. Allgemein
  3. Används ditt papper för att träna en AI -modell? Mest trolig

Används ditt papper för att träna en AI -modell? Mest trolig

Veröffentlicht: 14. August 2024, 12:58 Uhr

Von: Natur.wiki Autoren-Team

XPDF
Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Ta reda på mer om effekterna av att sälja forskning till teknikföretag för utbildning av AI -modeller och de frågor som uppstår. Läs hur akademiska utgivare säljer data till teknikföretag och vad som oroar detta orsakar forskare. (Symbolbild/natur.wiki)

Används ditt papper för att träna en AI -modell? Mest trolig

Allt som finns tillgängligt online-vare sig det är i ett öppet Access-arkiv eller inte-har redan varit "ganska" matat in i en stor röstmodell, säger Lucy Lu Wang, AI-forskare vid University of Washington i Seattle. "Och om ett papper redan har använts som utbildningsdata i en modell, finns det inget sätt att ta bort detta papper efter att ha tränat modellen," tillägger hon.

massiva dataposter

LLM: er tränas på enorma mängder data som ofta skummas från internet. De bestämmer mönster mellan de ofta miljarder röstavsnitten i träningsdata, så kallade tokens, vilket gör det möjligt för dem att generera texter med fantastisk vätska.

Generativa AI -modeller förlitar sig på att ta mönster från dessa datamassor för att mata ut texter, bilder eller datorkod. Vetenskapligt arbete är värdefullt för LLM -utvecklare på grund av deras längd och "hög informationstäthet", säger Stefan Baack, som utför analysen av AI -träningsdatauppsättningar vid Mozilla Foundation i San Francisco, Kalifornien.

Tendensen att köpa dataposter av hög kvalitet växer. I år har Financial Times sitt material till Chatgpt-Developer OpenAI Erbjuds i en lukrativ affär, liksom online-forumet reddit till Google. Och eftersom vetenskapliga förläggare antagligen betraktar alternativet som en obehörig skimmer av deras arbete, "Jag tror att fler sådana erbjudanden är överhängande", säger Wang.

Secrets of Information

Vissa AI -utvecklare, till exempel det stora konstruktionsnätverket i storskalig, håller medvetet sina dataposter öppna, men många företag som utvecklar generativa AI -modeller har hållit en stor del av sin utbildningsdata hemlig, säger Baack. "Vi har ingen aning om vad det är," säger han. Öppna källkodsförvar som ARXIV och den vetenskapliga databasen PubMed betraktas som "mycket populära" källor, även om betalväggade tidskriftsartiklar troligen kommer att skumma upp av stora teknikföretag gratis. "Du är alltid på jakt efter sådan information," tillägger han.

Det är svårt att bevisa att en LLM har använt en viss Artikel, säger Yves-Alexandre de Montjoye, datavetare vid Imperial College London. En möjlighet är att konfrontera modellen med en ovanlig mening från en text och kontrollera om utgången matchar nästa ord i originalet. Om detta är fallet är detta ett bra tecken på att papperet ingår i träningsuppsättningen. Om inte, betyder detta inte att uppsatsen inte har använts - inte minst för att utvecklare kan programmera LLM för att filtrera svaren för att säkerställa att de inte matchar utbildningsdata för nära. "Det krävs mycket för att det ska fungera," säger han.

En annan procedur för att kontrollera om data ingår i en träningsdatauppsättning kallas en medlemsinterferensattack. Detta är baserat på idén att en modell är säker på sin utgåva när den ser något som den har sett tidigare. De Montjoyes -teamet har utvecklat en version av den som heter Copyright Trap för LLMS.

För att sätta fällan genererar teamet rimliga men nonsensiska meningar och gömmer sig i ett verk, till exempel som en vit text på en vit bakgrund eller i ett fält som visas på en webbplats som nollbredd. Om en LLM är "förvånad" av en oanvänd kontrolluppsättning -ett mått på dess förvirring -mer än meningen dold i texten ", det statistiska beviset på att fällorna har sett i förväg," säger han.

Copyright -frågor

Även om det var möjligt att bevisa att en LLM tränades i en specifik text, är det inte klart vad som kommer att hända därefter. Förlag hävdar att användningen av upphovsrättsskyddade texter i utbildning utan licensiering anses vara en skada. Men en juridisk räknare säger att LLMS inte kopierar - du extraherar informationsinnehåll från utbildningsdata som krossas och använder din lärda kunskap för att generera ny text.

möjligen kan ett rättsligt förfarande hjälpa till att klargöra detta. I en pågående amerikansk konsultlag som kan vara banbrytande, The New York Times Microsoft och utvecklaren av Chatgpt, OpenAI, i San Francisco, Kalifornien. Tidningen anklagar företagen för att använda sitt journalistiska innehåll utan tillåtelse att utbilda sina modeller.

Många Akademiker är glada när deras arbete ingår i LLMS -utbildningsdata - särskilt om modellerna blir mer exakta. "Personligen har jag inget emot om en chatbot skriver i min stil," säger Baack. Men han medger att hans yrke inte hotas av utgifterna för LLMS, som andra yrken, till exempel konstnärer och författare.

Enskilda vetenskapliga författare har för närvarande litet inflytande om utgivaren av ditt papper säljer tillgång till dina upphovsrättsskyddade verk. Det finns inga etablerade sätt för allmänt tillgängliga artiklar att tilldela en kredit eller veta om en text har använts.

Vissa forskare, inklusive de Montjoye, är frustrerade. "Vi vill ha LLMS, men vi vill fortfarande ha något som är rättvist, och jag tror att vi ännu inte har uppfunnit hur det ser ut," säger han.

Ähnliche Artikel

  • Zerschlagene Atomkerne: Enthüllung ihrer geheimnisvollen Formen
  • Bedenken zur Datenintegrität in 130 Studien zur Frauengesundheit – Alle von einem Co-Autor verfasst
  • PlayStation ist gut für dich: Videospiele verbesserten die geistige Gesundheit während COVID.
  • Höchste Temperatur des Great Barrier Reef seit 400 Jahren erreicht
  • Schwere Fehler plagen DNA-Tool, das ein Arbeitstier der Biologie ist

© 2025 Natur.wiki. Alle Rechte vorbehalten.

  • Unsere Facebook Gruppe
  • Websites für Heilpraktiker
  • Impressum