Google pasniedz neredzamas ūdenszīmes AI ģenerētiem tekstiem

Google Deepmind ir izstrādājis neredzamu ūdenszīmi AI ģenerētiem tekstiem, lai apkarotu nepatiesu informāciju.
(Symbolbild/natur.wiki)

Google pasniedz neredzamas ūdenszīmes AI ģenerētiem tekstiem

Google Deepmind pētnieki Londonā ir izstrādājuši “ūdenszīmi”, lai identificētu tekstu, kuru ģenerē mākslīgais intelekts (AI)-tas jau ir izmantots miljoniem tērzēšanas robotu lietotāju.

Ūdenszīmi, kas tika publicēta 23. oktobrī žurnālā Nature 1 nav pirmais, kas jāizveido AI, kas ģenerēts, tomēr vissvarīgākais ir tas, ka šeit ir tas, ka tas ir reāls konteksts", "kas ir", "kas ir", "kas ir", "kas ir". " Āronsons, Teksasas Universitātes Datorzinātnieks Ostinā, kurš strādāja pie ūdenszīmēm Openai līdz augustam, Chatt veidotājiem, kas atrodas Sanfrancisko, Kalifornijā.

AI ģenerēto tekstu noteikšana kļūst arvien nozīmīgāka, jo jums ir potenciāls risinājums viltus ziņas un akadēmiska krāpšana . Turklāt tas varētu palīdzēt Vārdu izvēle

Grūtāk ir uzklāt ūdenszīmi tekstam nekā attēliem, jo ​​vārdu izvēle būtībā ir vienīgais mainīgais, ko var mainīt. DeepMind ūdens zīmoga saucamais sintētais teksts mainās, ko modelis izvēlas, slepenā, bet formālā veidā, ko var ierakstīt ar kriptogrāfijas atslēgu. Salīdzinot ar citām pieejām, Deepmind ūdenszīmi ir nedaudz vieglāk atpazīt, un lietojumprogramma neatliek teksta pozīciju. "Liekas, ka tas pārsniedz konkurentu jēdzienus LLMS ūdenszīmēs," saka Šumaylovs, kurš ir bijušais darbinieks un viena no pētījuma autoriem brālis.

Rīks tika atklāts arī tā, lai izstrādātāji modeļiem varētu izmantot savu ūdenszīmi. "Mēs ceram, ka citi AI modeļu izstrādātāji to izmantos un integrēs savās sistēmās," saka Pushmeet Kohli, Deepmind datorzinātnieks. Google saglabā savu galveno noslēpumu, lai lietotāji nevarētu izmantot noteikšanas rīkus, lai identificētu Dvīņu modeļa ūdenszīmju tekstu.

Valdības , a process that is referred to as "scrubbing", or "spoofing", in which watermarks are applied to texts to give the wrong impression that they are ki-generated.

Token-Tournament

DeepMinds pieejas pamatā ir LLM ir asociāciju tīkls, kas tiek veidots, trenējoties ar miljardiem vārdu vai detaļu, kas pazīstama kā žetoni. Kad ir ievadīts teksts, modelis parāda katru savu vārdu krājumā esošo marķieri, ka varbūtība būt nākamajam vārdam teikumā. Paraugu ņemšanas algoritma uzdevums ir izvēlēties, kuri žetoni būtu jāizmanto atbilstoši vairākiem noteikumiem.

Sintezēšanas teksta paraugu ņemšanas algoritms izmanto kriptogrāfijas atslēgu, lai katram iespējamajam marķierim piešķirtu nejaušas vērtības. Kandidātu biļetes ir proporcionālas to izplatīšanas varbūtībai un klasificētas "turnīrā". Tur algoritms salīdzina vērtības virknē ar vienu pretstatu-vienu-k.o.

Šī sarežģītā metode ļauj vieglāk noteikt ūdenszīmi, jo tas pats kriptogrāfijas kods tiek piemērots ģenerētajam tekstam, lai meklētu augstas vērtības, kas norāda uz “uzvarošiem” marķieriem. Tas arī varētu apgrūtināt attālumu.

Vairākas turnīra kārtas var uzskatīt par slēdzenes kombināciju, kurā katra kārta apzīmē atšķirīgu skaitu, kas jāatrisina, lai atbloķētu vai noņemtu ūdenszīmi, saka Huangs. "Šis mehānisms apgrūtina beršanu, spol vai attīstīt ūdenszīmi," viņa piebilst. Tekstiem ar aptuveni 200 žetoniem autori parādīja, ka viņi joprojām var atpazīt ūdenszīmi, pat ja teksta pārrakstīšanai tika izmantots otrais LLM. With shorter texts, the watermark is less robust.

Pētnieki nav pārbaudījuši, cik labi ūdenszīme ir izturīga pret apzinātiem mēģinājumiem noņemt. Ūdenszīmju pretestība pret šādiem uzbrukumiem ir "masīvs politisks jautājums", saka Yves-Alexandre de Montjoye, Londonas Imperial College datorzinātnieks. "AI drošības kontekstā nav skaidrs, cik lielā mērā tas piedāvā aizsardzību," viņš skaidro.

Kohli cer, ka ūdenszīme sākotnēji palīdzēs atbalstīt labi nodomu LLM izmantošanu. "Vadošā filozofija bija tāda, ka mēs vēlējāmies izstrādāt rīku, kuru sabiedrība var uzlabot," viņš piebilst.

  1. Datthri, S. et al. Daba 634, 818–823 (2024).

    Lejupielādēt atsauces