Χρησιμοποιήθηκε το χαρτί σας για να εκπαιδεύσει ένα μοντέλο AI; Πιο πιθανό

Μάθετε περισσότερα σχετικά με τις επιπτώσεις της πώλησης έρευνας σε εταιρείες τεχνολογίας για την κατάρτιση μοντέλων AI και τις ερωτήσεις που προκύπτουν. Διαβάστε πώς οι ακαδημαϊκοί εκδότες πωλούν δεδομένα σε εταιρείες τεχνολογίας και τι αφορά αυτό προκαλεί ερευνητές.

14. August 2024

Natur.wiki Autoren-Team

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Facebook X Whatsapp Email

<σχήμα class = "σχήμα"> <Εικόνες class = "Embed ένταση-high">

Όλα όσα είναι διαθέσιμα σε απευθείας σύνδεση-είτε σε ένα αποθετήριο ανοικτής πρόσβασης είτε δεν έχουν ήδη "αρκετά" που τροφοδοτούνται σε ένα μεγάλο μοντέλο φωνής, λέει η Lucy Lu Wang, ερευνητής του AI στο Πανεπιστήμιο της Ουάσινγκτον στο Σιάτλ. "Και αν ένα χαρτί έχει ήδη χρησιμοποιηθεί ως δεδομένα εκπαίδευσης σε ένα μοντέλο, δεν υπάρχει τρόπος να αφαιρέσετε αυτό το χαρτί μετά την εκπαίδευση του μοντέλου", προσθέτει.

μαζικά αρχεία δεδομένων

LLMS εκπαιδεύονται σε τεράστια ποσά δεδομένων που συχνά αποβιβάζονται από το Διαδίκτυο. Καθορίζουν τα πρότυπα μεταξύ των συχνά δισεκατομμυρίων φωνητικών τμημάτων στα δεδομένα εκπαίδευσης, έτσι -που ονομάζονται μάρκες, τα οποία τους επιτρέπουν να δημιουργούν κείμενα με εκπληκτικό υγρό.

Τα γενετικά μοντέλα AI βασίζονται στη λήψη προτύπων από αυτές τις μάζες δεδομένων, προκειμένου να εξάγουν κείμενα, εικόνες ή κωδικό υπολογιστή. Η επιστημονική εργασία είναι πολύτιμη για τους προγραμματιστές LLM λόγω του μήκους και της "υψηλής πυκνότητας πληροφοριών", λέει ο Stefan Baack, ο οποίος πραγματοποιεί την ανάλυση των συνόλων δεδομένων κατάρτισης AI στο Ίδρυμα Mozilla στο Σαν Φρανσίσκο της Καλιφόρνια.

Η τάση να αγοράζουν αρχεία δεδομένων υψηλής ποιότητας αυξάνονται. Φέτος οι Financial Times έχουν το υλικό του στο chatgpt-developer openai που προσφέρεται σε μια προσοδοφόρα συμφωνία, καθώς και το online φόρουμ Reddit στο Google. Και δεδομένου ότι οι επιστημονικοί εκδότες πιθανώς θεωρούν την εναλλακτική λύση ως μη εξουσιοδοτημένο skimmer για το έργο τους ", νομίζω ότι περισσότερες συμφωνίες είναι επικείμενοι", λέει ο Wang.

Μυστικά πληροφοριών

Ορισμένοι προγραμματιστές AI, όπως το δίκτυο τεχνητής νοημοσύνης μεγάλης κλίμακας, διατηρούν σκόπιμα τα αρχεία δεδομένων τους, αλλά πολλές εταιρείες που αναπτύσσουν γενετικά μοντέλα AI έχουν διατηρήσει μεγάλο μέρος του μυστικού δεδομένων κατάρτισης τους, λέει ο Baack. "Δεν έχουμε ιδέα τι είναι", λέει. Τα αποθετήρια ανοιχτού κώδικα όπως το ARXIV και η επιστημονική βάση δεδομένων PubMed θεωρούνται "πολύ δημοφιλείς" πηγές, αν και τα άρθρα περιοδικών Paywalled είναι πιθανό να αποβιβαστούν από μεγάλες εταιρείες τεχνολογίας δωρεάν. "Είστε πάντα στο κυνήγι για τέτοιες πληροφορίες", προσθέτει.

Είναι δύσκολο να αποδειχθεί ότι ένα LLM έχει χρησιμοποιήσει ένα συγκεκριμένο έγγραφο, λέει ο Yves-Alexandre de Montjoye, επιστήμονας υπολογιστών στο Imperial College London. Μια πιθανότητα είναι να αντιμετωπίσετε το μοντέλο με μια ασυνήθιστη πρόταση από ένα κείμενο και να ελέγξετε αν η έξοδος ταιριάζει με τις επόμενες λέξεις στο πρωτότυπο. Εάν συμβαίνει αυτό, αυτό είναι ένα καλό σημάδι ότι το χαρτί περιλαμβάνεται στο σετ εκπαίδευσης. Εάν όχι, αυτό δεν σημαίνει ότι το χαρτί δεν έχει χρησιμοποιηθεί - κυρίως επειδή οι προγραμματιστές μπορούν να προγραμματίσουν το LLM για να φιλτράρουν τις απαντήσεις για να εξασφαλίσουν ότι δεν ταιριάζουν πολύ στενά τα δεδομένα εκπαίδευσης. "Χρειάζονται πολλά για να λειτουργήσει", λέει.

Μια άλλη διαδικασία για τον έλεγχο του εάν τα δεδομένα περιλαμβάνονται σε ένα σύνολο δεδομένων κατάρτισης ονομάζεται επίθεση συμπερασμάτων συμμετοχής. Αυτό βασίζεται στην ιδέα ότι ένα μοντέλο είναι σίγουρο για την έκδοση του όταν βλέπει κάτι που έχει δει πριν. Η ομάδα De Montjoyes έχει αναπτύξει μια έκδοση του που ονομάζεται Trap Copyright για LLMS.

Για να βάλει την παγίδα, η ομάδα δημιουργεί εύλογες αλλά ανόητες προτάσεις και κρύβει σε ένα έργο, για παράδειγμα ως λευκό κείμενο σε λευκό φόντο ή σε ένα πεδίο που εμφανίζεται σε έναν ιστότοπο ως μηδενικό πλάτος. Εάν ένα LLM "έκπληκτος" από ένα αχρησιμοποίητο σύνολο ελέγχου -ένα μέτρο της σύγχυσης του -περισσότερο από την φράση που κρύβεται στο κείμενο ", τα στατιστικά στοιχεία ότι οι παγίδες έχουν δει εκ των προτέρων", λέει.

Ερωτήσεις πνευματικών δικαιωμάτων

Ακόμη και αν ήταν δυνατόν να αποδειχθεί ότι ένα LLM εκπαιδεύτηκε σε ένα συγκεκριμένο κείμενο, δεν είναι σαφές τι θα συμβεί στη συνέχεια. Οι εκδότες ισχυρίζονται ότι η χρήση κειμένων που προστατεύονται από πνευματικά δικαιώματα κατά την κατάρτιση χωρίς αδειοδότηση θεωρείται τραυματισμός. Αλλά ένα νομικό αντίθετο - λέει ότι το LLMS δεν αντιγράφει - εξάγετε περιεχόμενο πληροφοριών από τα δεδομένα εκπαίδευσης που συνθλίβονται και χρησιμοποιούν τις γνώσεις σας για να δημιουργήσουν νέο κείμενο.

Ενδεχομένως μια νομική διαδικασία θα μπορούσε να βοηθήσει στην αποσαφήνιση αυτού. Σε ένα συνεχιζόμενο αμερικανικό συμβουλευτικό νόμο που θα μπορούσε να είναι πρωτοπόρος, οι New York Times και ο προγραμματιστής της ChatGpt, OpenAi, στο Σαν Φρανσίσκο της Καλιφόρνια. Η εφημερίδα κατηγορεί τις εταιρείες ότι χρησιμοποιούν το δημοσιογραφικό τους περιεχόμενο χωρίς άδεια να εκπαιδεύσουν τα μοντέλα τους.

Πολλοί ακαδημαϊκοί είναι χαρούμενοι όταν η δουλειά τους περιλαμβάνεται στα δεδομένα εκπαίδευσης LLMS - ειδικά εάν τα μοντέλα γίνουν πιο ακριβή. "Προσωπικά, δεν με πειράζει αν ένα chatbot γράφει στο στυλ μου", λέει ο Baack. Αλλά παραδέχεται ότι το επάγγελμά του δεν απειλείται από τις δαπάνες των LLMS, όπως και άλλων επαγγελμάτων, όπως καλλιτέχνες και συγγραφείς.

Οι μεμονωμένοι επιστημονικοί συγγραφείς έχουν επί του παρόντος ελάχιστη επιρροή εάν ο εκδότης του εγγράφου σας πωλεί πρόσβαση στα έργα που προστατεύονται από πνευματικά δικαιώματα. Δεν υπάρχουν καθιερωμένα μέσα για τα διαθέσιμα στο κοινό άρθρα να εκχωρήσουν πίστωση ή να γνωρίζουν εάν έχει χρησιμοποιηθεί ένα κείμενο.

Μερικοί ερευνητές, συμπεριλαμβανομένου του de Montjoye, είναι απογοητευμένοι. "Θέλουμε LLMS, αλλά εξακολουθούμε να θέλουμε κάτι που είναι δίκαιο και νομίζω ότι δεν έχουμε ακόμη εφευρεθεί τι μοιάζει", λέει.