Natur.wiki Logo
  • Gesundheit und Ernährung
  • Heilpflanzen und Kräuterkunde
  • Themen
    • Allgemein
    • Fachartikel
    • Hausmittel
    • Natürliche Medizin
    • Interessant und Hilfreich
    • Medizin und Forschung
    • Naturheilkunde bei Tieren
    • Psychotherapie
    • Tipps, Tricks und Rezepte
    • Yoga
  • Verzeichnis
  • FAQ
  • Studien
  • Lexikon
  1. Home
  2. Allgemein
  3. La tua carta è stata utilizzata per addestrare un modello di intelligenza artificiale? Più probabilmente

La tua carta è stata utilizzata per addestrare un modello di intelligenza artificiale? Più probabilmente

Veröffentlicht: 14. August 2024, 12:58 Uhr

Von: Natur.wiki Autoren-Team

XPDF
Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Scopri di più sugli effetti della vendita di ricerche alle aziende tecnologiche per la formazione di modelli di intelligenza artificiale e le domande che sorgono. Leggi come gli editori accademici vendono dati alle aziende tecnologiche e ciò che riguarda questo provoca ricercatori. (Symbolbild/natur.wiki)

La tua carta è stata utilizzata per addestrare un modello di intelligenza artificiale? Più probabilmente

Tutto ciò che è disponibile online, che in un repository ad accesso aperto o non è già stato "abbastanza" alimentato in un modello vocale di grandi dimensioni, afferma Lucy Lu Wang, ricercatore di intelligenza artificiale presso l'Università di Washington a Seattle. "E se un documento è già stato utilizzato come dati di addestramento in un modello, non c'è modo di rimuovere questo documento dopo aver allenato il modello", aggiunge.

record di dati enormi

LLMS sono addestrati su enormi quantità di dati che sono spesso sfogliati da Internet. Determinano i modelli tra i miliardi di sezioni vocali spesso nei dati di addestramento, così chiamati token, che consentono loro di generare testi con un liquido straordinario.

Modelli AI generativi si basano sull'assunzione di schemi da queste masse di dati per output di testi, immagini o codice del computer. Il lavoro scientifico è prezioso per gli sviluppatori di LLM a causa della loro lunghezza e "alta densità di informazioni", afferma Stefan Baack, che esegue l'analisi dei set di dati di addestramento AI presso la Mozilla Foundation di San Francisco, in California.

La tendenza ad acquistare record di dati di alta qualità cresce. This year the Financial Times has its material to the Chatgpt-Developer Openi Offerto in un affare redditizio, nonché il forum online Reddit a Google. E dal momento che gli editori scientifici probabilmente considerano l'alternativa come uno skimmer non autorizzato del loro lavoro, "penso che più tali affari siano imminenti", afferma Wang.

Segreti di informazioni

Alcuni sviluppatori di intelligenza artificiale, come la rete di intelligenza artificiale su larga scala, mantengono deliberatamente aperti i loro record di dati, ma molte aziende che sviluppano modelli di intelligenza artificiale generativi hanno mantenuto una grande parte del loro segreto dei dati di formazione, afferma Baack. "Non abbiamo idea di cosa sia", dice. I repository open source come ARXIV e il database scientifico PubMed sono considerati fonti "molto popolari", sebbene sia probabile che gli articoli di riviste paywalled vengano sfogliati da grandi aziende tecnologiche. "Sei sempre a caccia di tali informazioni", aggiunge.

È difficile dimostrare che un LLM ha usato un certo documento, afferma Yves-Alexandre de Montjoye, un informatico dell'Imperial College di Londra. Una possibilità è quella di affrontare il modello con una frase insolita da un testo e verificare se l'output corrisponde alle parole successive nell'originale. In tal caso, questo è un buon segno che il documento è incluso nel set di addestramento. In caso contrario, ciò non significa che il documento non sia stato utilizzato, non da ultimo perché gli sviluppatori possono programmare LLM per filtrare le risposte per garantire che non corrispondano ai dati di allenamento troppo da vicino. "Ci vuole molto per farlo funzionare", dice.

Un'altra procedura per verificare se i dati sono inclusi in un set di dati di addestramento sono chiamati un attacco di inferenza dell'appartenenza. Questo si basa sull'idea che un modello sia sicuro della sua edizione quando vede qualcosa che ha visto prima. De Montjoyes Team ha sviluppato una versione chiamata Copyright Trap per LLMS.

Per mettere la trappola, il team genera frasi plausibili ma senza senso e si nascondono in un'opera, ad esempio come testo bianco su uno sfondo bianco o in un campo che viene visualizzato su un sito Web come larghezza zero. Se un LLM è "sorpreso" da un set di controllo inutilizzato, una misura della sua confusione, più della frase nascosta nel testo ", l'evidenza statistica che le trappole sono state viste in anticipo", dice.

Domande sul copyright

Anche se è stato possibile dimostrare che un LLM è stato addestrato su un testo specifico, non è chiaro cosa accadrà dopo. Gli editori affermano che l'uso di testi protetti da copyright in addestramento senza licenze è considerato un infortunio. Ma un contatore legale afferma che LLMS non copia: si estrae contenuti di informazioni dai dati di formazione che vengono schiacciati e utilizzano le tue conoscenze apprese per generare nuovo testo.

Forse un procedimento legale potrebbe aiutare a chiarire questo. In una legge di consulenza americana in corso che potrebbe essere pionieristica, The New York Times Microsoft e lo sviluppatore di Chatgpt, Openai, a San Francisco, in California. Il giornale accusa le aziende di utilizzare i loro contenuti giornalistici senza il permesso di formare i loro modelli.

Molti accademici sono felici quando il loro lavoro è incluso nei dati di formazione LLMS, soprattutto se i modelli diventano più precisi. "Personalmente, non mi dispiace se un chatbot scrive nel mio stile", afferma Baack. Ma ammette che la sua professione non è minacciata dalle spese degli LLM, come quella di altre professioni, come artisti e scrittori.

Gli autori scientifici individuali hanno attualmente poca influenza se l'editore del tuo documento vende l'accesso alle opere protette da copyright. Non ci sono mezzi stabiliti per gli articoli disponibili al pubblico per assegnare un credito o sapere se è stato utilizzato un testo.

Alcuni ricercatori, tra cui De Montjoye, sono frustrati. "Vogliamo LLMS, ma vogliamo ancora qualcosa di giusto, e penso che non abbiamo ancora inventato come appare", dice.

Ähnliche Artikel

  • Zerschlagene Atomkerne: Enthüllung ihrer geheimnisvollen Formen
  • Bedenken zur Datenintegrität in 130 Studien zur Frauengesundheit – Alle von einem Co-Autor verfasst
  • PlayStation ist gut für dich: Videospiele verbesserten die geistige Gesundheit während COVID.
  • Höchste Temperatur des Great Barrier Reef seit 400 Jahren erreicht
  • Schwere Fehler plagen DNA-Tool, das ein Arbeitstier der Biologie ist

© 2025 Natur.wiki. Alle Rechte vorbehalten.

  • Unsere Facebook Gruppe
  • Websites für Heilpraktiker
  • Impressum