Η Google παρουσιάζει αόρατα υδατογραφήματα για κείμενα που παράγονται από AI

Το Google DeepMind έχει αναπτύξει ένα αόρατο υδατογράφημα για κείμενα που δημιουργούνται από την AI για την καταπολέμηση ψευδών πληροφοριών.
(Symbolbild/natur.wiki)

Η Google παρουσιάζει αόρατα υδατογραφήματα για κείμενα που παράγονται από AI

Οι ερευνητές στο Google DeepMind στο Λονδίνο έχουν αναπτύξει ένα "υδατογράφημα" για τον εντοπισμό κειμένου που δημιουργείται από την τεχνητή νοημοσύνη (AI)-αυτό έχει ήδη χρησιμοποιηθεί σε εκατομμύρια χρήστες chatbot.

Το υδατογράφημα που δημοσιεύθηκε στις 23 Οκτωβρίου στο περιοδικό Nature Η ανίχνευση των κειμένων που παράγονται από την ΑΙ γίνεται όλο και πιο σημαντική επειδή έχετε μια πιθανή λύση για τα προβλήματα του Ακαδημαϊκή απάτη . Επιπλέον, θα μπορούσε να βοηθήσει σε .

Σε μια εκτεταμένη μελέτη, οι χρήστες του Μοντέλο Μεγάλου Γλώσσας Google Gemini αξιολογήθηκαν σε 20 εκατομμύρια απαντήσεις σε υδατογραφήματα κειμένων ως ισοδύναμα με κείμενα που δεν έχουν επισημανθεί. "Είμαι ενθουσιώδης για να δω ότι η Google κάνει αυτό το βήμα για την τεχνολογική κοινότητα", λέει ο Furong Huang, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Maryland στο College Park. "Είναι πιθανό ότι τα περισσότερα εμπορικά εργαλεία θα περιέχουν υδατογραφήματα στο εγγύς μέλλον", προσθέτει ο Zakhar Shumaylov, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Cambridge του Ηνωμένου Βασιλείου.

Επιλογή λέξεων

Είναι πιο δύσκολο να εφαρμοστεί ένα υδατογράφημα σε κείμενο παρά σε εικόνες, καθώς η επιλογή των λέξεων είναι ουσιαστικά η μόνη μεταβλητή που μπορεί να αλλάξει. Το DeepMind's Watermarked Synthid Text-Changes που λέξεις επιλέγει το μοντέλο, με μυστικό αλλά τυποποιημένο τρόπο που μπορεί να καταγραφεί με ένα κρυπτογραφικό κλειδί. Σε σύγκριση με άλλες προσεγγίσεις, το υδατογράφημα του DeepMind είναι ελαφρώς πιο εύκολο να αναγνωριστεί και η εφαρμογή δεν καθυστερεί τη θέση του κειμένου. "Φαίνεται ότι υπερβαίνει τις έννοιες των ανταγωνιστών σε υδατογραφήματα LLMS", λέει ο Shumaylov, ο οποίος είναι πρώην υπάλληλος και αδελφός ενός από τους συντάκτες της μελέτης.

Το εργαλείο αποκαλύφθηκε επίσης έτσι ώστε οι προγραμματιστές να μπορούν να εφαρμόσουν το δικό τους υδατογράφημα στα μοντέλα τους. "Ελπίζουμε ότι άλλοι προγραμματιστές μοντέλων AI θα το πάρουν αυτό και θα τα ενσωματώσουν στα δικά τους συστήματα", λέει ο Pushmeet Kohli, επιστήμονας υπολογιστών στο DeepMind. Η Google διατηρεί το βασικό μυστικό της, έτσι ώστε οι χρήστες να μην μπορούν να χρησιμοποιήσουν εργαλεία ανίχνευσης για να εντοπίσουν το υδατογραφημένο κείμενο του μοντέλου Gemini.

Κυβερνήσεις . Παρόλα αυτά, υπάρχουν πολλά προβλήματα, συμπεριλαμβανομένης της υποχρέωσης των προγραμματιστών να χρησιμοποιούν υδατογραφήματα και τον συντονισμό των προσεγγίσεών τους. Στις αρχές του τρέχοντος έτους, οι ερευνητές της ομοσπονδιακής τεχνολογίας Zurich έδειξαν ότι , μια διαδικασία που αναφέρεται ως "καθαρισμός" ή "spoofing", στην οποία τα υδατογραφήματα εφαρμόζονται σε κείμενα για να δώσουν λάθος εντύπωση ότι δημιουργούνται Ki.

Token-Tournament

Η προσέγγιση DeepMinds βασίζεται σε ένα exating method in in sampling in sampling του κειμένου που διαχωρίζεται από το ίδιο το LLM.

Ένα LLM είναι ένα δίκτυο ενώσεων που δημιουργούνται με εκπαίδευση με δισεκατομμύρια λέξεις ή μέρη γνωστά ως μάρκες. Όταν εισάγεται ένα κείμενο, το μοντέλο δείχνει κάθε διακριτικό στο λεξιλόγιό του μια πιθανότητα να είναι η επόμενη λέξη στην πρόταση. Το καθήκον του αλγορίθμου δειγματοληψίας είναι να επιλέξετε ποιες μάρκες πρέπει να χρησιμοποιούνται σύμφωνα με διάφορους κανόνες.

Ο αλγόριθμος δειγματοληψίας κειμένου συνθέματος χρησιμοποιεί ένα κρυπτογραφικό κλειδί για να αντιστοιχίσει τυχαίες τιμές σε κάθε δυνατό διακριτικό. Τα υποψήφια εισιτήρια είναι ανάλογα με την πιθανότητα διανομής και ταξινομούνται σε ένα "τουρνουά". Εκεί ο αλγόριθμος συγκρίνει τις τιμές σε μια σειρά από ένα-ανά-ένα-k.o.-στρογγυλά, όπου τα υψηλότερα κέρδη μέχρις ότου υπάρχει μόνο ένα token που έχει επιλεγεί για το κείμενο.

Αυτή η εκλεπτυσμένη μέθοδος διευκολύνει την ανίχνευση του υδατογράφου, αφού ο ίδιος κρυπτογραφικός κώδικας εφαρμόζεται στο δημιουργημένο κείμενο για να αναζητηθεί οι υψηλές τιμές που υποδεικνύουν τα "νίκη". Αυτό θα μπορούσε επίσης να κάνει την απόσταση πιο δύσκολη.

Οι διάφοροι γύροι στο τουρνουά μπορούν να θεωρηθούν ως συνδυασμός κλειδαριάς, στον οποίο κάθε γύρος αντιπροσωπεύει έναν διαφορετικό αριθμό που πρέπει να λυθεί για να ξεκλειδώσει ή να αφαιρέσει το υδατογράφημα, λέει ο Huang. "Αυτός ο μηχανισμός καθιστά πολύ πιο δύσκολο να καθαριστεί, να αναπτύξει το υδατογράφημα", προσθέτει. Για κείμενα με περίπου 200 μάρκες, οι συγγραφείς έδειξαν ότι θα μπορούσαν ακόμα να αναγνωρίσουν το υδατογράφημα, ακόμη και αν χρησιμοποιήθηκε ένα δεύτερο LLM για να ξαναγράψει το κείμενο. Με μικρότερα κείμενα, το υδατογράφημα είναι λιγότερο ισχυρό.

Οι ερευνητές δεν εξέτασαν πόσο καλά το υδατογράφημα είναι ανθεκτικό στις σκόπιμες προσπάθειες αφαίρεσης. Η αντίσταση των υδατογραφημάτων ενάντια σε τέτοιες επιθέσεις είναι ένα "τεράστιο πολιτικό ζήτημα", λέει ο Yves-Alexandre de Montjoye, επιστήμονας υπολογιστών στο Imperial College London. "Στο πλαίσιο της ασφάλειας AI δεν είναι σαφές σε ποιο βαθμό προσφέρει προστασία", εξηγεί.

Kohli ελπίζει ότι το υδατογράφημα θα βοηθήσει αρχικά να υποστηρίξει την καλά -προθεωρημένη χρήση του LLMS. "Η καθοδηγητική φιλοσοφία ήταν ότι θέλαμε να αναπτύξουμε ένα εργαλείο που μπορεί να βελτιωθεί από την κοινότητα", προσθέτει.

  1. >

    datthri, S. et al. Nature 634, 818-823 (2024).

  2. "https://citation-needr.springer.com/v2/references/1038/d41586-03462-7?format=refman&flavour=references"> Κατεβάστε αναφορές