هل كانت ورقتك تستخدم لتدريب نموذج الذكاء الاصطناعي؟ على الأرجح

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
تعرف على المزيد حول آثار بيع الأبحاث على شركات التكنولوجيا لتدريب نماذج الذكاء الاصطناعي والأسئلة التي تنشأ. اقرأ كيف يبيع الناشرون الأكاديميون البيانات لشركات التكنولوجيا وما يتعلق بهذا يسبب الباحثين. (Symbolbild/natur.wiki)

هل كانت ورقتك تستخدم لتدريب نموذج الذكاء الاصطناعي؟ على الأرجح

<الشكل class = "الشكل">
يقول لوسي لو وانغ ، باحثة منظمة العفو الدولية بجامعة واشنطن في سياتل ، إن كل ما يتوفر عبر الإنترنت-سواء في مستودع الوصول المفتوح أو عدم التغذية بالفعل "تمامًا" يتم تغذيته في نموذج صوت كبير. وتضيف: "وإذا تم استخدام ورقة بالفعل كبيانات تدريب في نموذج ، فلا توجد طريقة لإزالة هذه الورقة بعد تدريب النموذج".

سجلات البيانات الضخمة

يتم تدريب

LLMs على كميات هائلة من البيانات التي غالباً ما يتم قشطها من الإنترنت. وهي تحدد الأنماط بين المليارات في كثير من الأحيان من الأقسام الصوتية في بيانات التدريب ، لذلك تسمى الرموز المميزة ، والتي تمكنهم من توليد النصوص مع سائل مذهل.

تعتمد نماذج الذكاء الاصطناعي التوليدي على أخذ أنماط من كتل البيانات هذه من أجل إخراج النصوص أو الصور أو رمز الكمبيوتر. يقول ستيفان بااك ، الذي يقوم بتحليل مجموعات بيانات تدريب الذكاء الاصطناعي في مؤسسة موزيلا في سان فرانسيسكو ، كاليفورنيا ، العمل العلمي ذي قيمة لمطوري LLM بسبب طولها و "كثافة المعلومات العالية".

ينمو الميل إلى شراء سجلات البيانات عالية الجودة. هذا العام Financial Times يحتوي على مواده إلى

أسرار المعلومات

بعض مطوري الذكاء الاصطناعى ، مثل شبكة الذكاء الاصطناعي على نطاق واسع ، يبقيون عن عمد سجلات بياناتهم مفتوحة ، لكن العديد من الشركات التي تطور نماذج الذكاء الاصطناعى قد أبقت جزءًا كبيرًا من بيانات التدريب الخاصة بهم ، كما يقول Baack. يقول: "ليس لدينا أي فكرة عما هو عليه". تعتبر مستودعات المصادر مفتوحة المصادر مثل Arxiv وقاعدة البيانات العلمية PubMed مصادر "شائعة جدًا" ، على الرغم من أن مقالات المجلات المقيدة من المحتمل أن تتجهها شركات التكنولوجيا الكبيرة مجانًا. ويضيف: "أنت دائمًا في البحث عن مثل هذه المعلومات".

يقول إيف-ألكاندري دي مونتجوي ، عالم الكمبيوتر في كلية إمبريال كوليدج في لندن ،

من الصعب إثبات أن LLM قد استخدمت ورقة معينة. أحد الاحتمالات هو مواجهة النموذج بجملة غير عادية من نص والتحقق مما إذا كان الإخراج يتطابق مع الكلمات التالية في الأصل. إذا كان هذا هو الحال ، فهذه علامة جيدة على أن الورقة مدرجة في مجموعة التدريب. إذا لم يكن الأمر كذلك ، فهذا لا يعني أن الورقة لم يتم استخدامها - ليس أقلها لأن المطورين يمكنهم برمجة LLM لتصفية الإجابات للتأكد من أنها لا تتطابق مع بيانات التدريب عن كثب. يقول: "يستغرق الأمر الكثير لجعله يعمل".

إجراء آخر للتحقق مما إذا كان يتم تضمين البيانات في مجموعة بيانات التدريب يسمى هجوم استنتاج العضوية. يعتمد هذا على فكرة أن النموذج واثق من نسخته عندما يرى شيئًا رأيته من قبل. قام فريق De Montjoyes بتطوير نسخة منه تسمى حقوق الطبع والنشر لمصار LLMS.

لوضع الفخ ، يولد الفريق جمل واختبارات معقولة ولكن لا معنى لها في العمل ، على سبيل المثال كنص أبيض على خلفية بيضاء أو في حقل يتم عرضه على موقع ويب كعرض صفري. إذا فوجئت "LLM" بمجموعة تحكم غير مستخدمة -فإن مقياسًا لارتباكه -أكثر من الجملة المخفية في النص "، كما يقول.

أسئلة حقوق الطبع والنشر

حتى لو كان من الممكن إثبات أنه تم تدريب LLM على نص معين ، فليس من الواضح ما الذي سيحدث بعد ذلك. يزعم الناشرون أن استخدام النصوص المحمية بحقوق الطبع والنشر في التدريب دون ترخيص يعتبر إصابة. لكن العداد القانوني يقول argument أن LLMS لا ينسخ - يمكنك استخراج محتوى المعلومات من بيانات التدريب التي يتم سحقها واستخدام معرفتك المستفادة لإنشاء نص جديد.

ربما يمكن أن تساعد الإجراءات القانونية في توضيح ذلك. في قانون الاستشارات الأمريكية المستمر الذي يمكن أن يكون رائدًا ، The New York Times Microsoft ومطور Chatgpt ، Openai ، في سان فرانسيسكو ، كاليفورنيا. تتهم الصحيفة شركات استخدام محتوىها الصحفي دون إذن لتدريب نماذجها.

يسعد العديد من الأكاديميين عندما يتم تضمين عملهم في بيانات تدريب LLMS - خاصةً إذا أصبحت النماذج أكثر دقة. يقول بااك: "أنا شخصياً لا أمانع إذا كتب chatbot في أسلوبي". لكنه يعترف بأن مهنته ليست مهددة بسبب إنفاق LLMS ، مثل مهن المهن الأخرى ، مثل الفنانين والكتاب.

المؤلفين العلميين الفرديين ليس لديهم حاليًا تأثير ضئيل إذا كان ناشر ورقتك يبيع الوصول إلى أعمالك المحمية بحقوق الطبع والنشر. لا توجد وسيلة ثابتة للمقالات المتاحة للجمهور لتعيين ائتمان أو معرفة ما إذا كان قد تم استخدام نص.

بعض الباحثين ، بما في ذلك De Montjoye ، محبطون. يقول: "نريد LLMS ، لكننا ما زلنا نريد شيئًا عادلًا ، وأعتقد أننا لم نخترع بعد ما يبدو".