محادثات حول الذكاء الاصطناعي الخارق (AI) يزيد. لكن الأبحاث كشفت عن نقاط ضعف في أحد أكثر أنظمة الذكاء الاصطناعي نجاحا - وهو روبوت يلعب لعبة الطاولة Go ويمكنه التغلب على أفضل اللاعبين البشريين في العالم - مما يدل على أن هذا التفوق يمكن أن يكون هشا. تثير الدراسة تساؤلات حول ما إذا كانت أنظمة الذكاء الاصطناعي الأكثر عمومية عرضة لنقاط الضعف التي يمكن أن تهدد سلامتها وموثوقيتها، وحتى ادعائها بأنها "خارقة للإنسان".
يقول هوان تشانج، عالم الكمبيوتر في جامعة إلينوي أوربانا شامبين: "تترك هذه الورقة علامة استفهام كبيرة حول كيفية تحقيق الهدف الطموح المتمثل في بناء عوامل ذكاء اصطناعي قوية وواقعية يمكن للناس الوثوق بها". ويضيف ستيفن كاسبر، عالم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا في كامبريدج: "إنه يقدم بعضًا من أقوى الأدلة حتى الآن على أنه من الصعب تنفيذ النماذج المتقدمة بشكل موثوق كما يرغب المرء".
التحليل في يونيو تم نشره على الإنترنت كطبعة أولية 1ولم تتم مراجعته بعد من قبل النظراء، ويستخدم ما يسمى بالهجمات العدائية - مدخلات أنظمة الذكاء الاصطناعي التي تهدف إلى التسبب في ارتكاب الأنظمة لأخطاء سواء لأغراض بحثية أو لأغراض ضارة. على سبيل المثال، يمكن لبعض المدخلات "كسر حماية" برامج الدردشة الآلية عن طريق بث معلومات ضارة ينبغي عليها قمعها عادةً.
في لعبة Go، يتناوب لاعبان في وضع الحجارة السوداء والبيضاء على شبكة لتطويق أحجار اللاعب الآخر واحتجازها. في عام 2022، أفاد الباحثون عن تدريب روبوتات الذكاء الاصطناعي المعادية لهزيمة KataGo 2، أفضل نظام ذكاء اصطناعي مفتوح المصدر للعب والذي عادةً ما يتفوق على أفضل البشر بسهولة (وببساطة). عثرت الروبوتات الخاصة بهم على نقاط ضعف كانت تهزم KataGo بانتظام، على الرغم من أن الروبوتات لم تكن جيدة جدًا بخلاف ذلك - يمكن للهواة من البشر هزيمتهم. بالإضافة إلى ذلك، كان البشر قادرين على فهم واستخدام حيل الروبوتات لهزيمة KataGo.
استغلال برنامج KataGo
هل كان هذا إجراءً لمرة واحدة، أم أن هذا العمل يشير إلى نقطة ضعف أساسية في KataGo - وبالتالي، في أنظمة الذكاء الاصطناعي الأخرى التي تتمتع بقدرات خارقة على ما يبدو؟ للتحقيق في هذا الأمر، يستخدم الباحثون بقيادة آدم جليف، المدير التنفيذي لمنظمة FAR AI، وهي منظمة بحثية غير ربحية في بيركلي، كاليفورنيا، والمؤلف المشارك لورقة 2022، الذكاء الاصطناعي. 2، روبوتات معادية لاختبار ثلاث طرق للدفاع عن Go AIs ضد مثل هذه الهجمات 1.
كان الدفاع الأول هو الذي استخدمه مطورو KataGo بالفعل بعد هجمات 2022: إعطاء KataGo أمثلة لمواقف اللعبة التي شاركت في الهجمات والسماح له باللعب ليتعلم كيفية اللعب ضد تلك المواقف. وهذا مشابه للطريقة التي يتم بها تدريس لعبة Go بشكل عام. ومع ذلك، وجد مؤلفو البحث الأخير أن الروبوت المنافس تعلم التغلب حتى على هذا الإصدار المحدث من KataGo وفاز بنسبة 91% من الوقت.
كانت الإستراتيجية الدفاعية الثانية التي جربها فريق جليف تكرارية: تدريب نسخة من KataGo ضد الروبوتات المعادية، ثم تدريب المهاجمين ضد KataGo المحدث، وما إلى ذلك، لمدة تسع جولات. ولكن حتى هذا لم يؤد إلى نسخة لا تقهر من KataGo. استمر المهاجمون في العثور على نقاط الضعف، حيث نجح الهجوم الأخير في التغلب على KataGo بنسبة 81% من الحالات.
وكاستراتيجية دفاعية ثالثة، قام الباحثون بتدريب نظام ذكاء اصطناعي جديد من الصفر. يعتمد KataGo على نموذج حسابي يُعرف باسم الشبكة العصبية التلافيفية (CNN). ويشتبه الباحثون في أن شبكات CNN قد تركز أكثر من اللازم على التفاصيل المحلية وتغفل الأنماط العالمية. لذلك قاموا ببناء لاعب Go مع بديل الشبكة العصبية يسمى محول الرؤية (ViT). لكن الروبوت المنافس الخاص بهم وجد هجومًا جديدًا ساعده على الفوز على نظام ViT بنسبة 78% من الوقت.
خصوم ضعفاء
في كل هذه الحالات، تم تدريب الروبوتات التنافسية - على الرغم من قدرتها على التغلب على KataGo وغيره من أنظمة لعب Go الرائدة - على اكتشاف نقاط الضعف المخفية في أنظمة الذكاء الاصطناعي الأخرى، بدلاً من أن يكونوا استراتيجيين متمرسين. يقول جليف: "لا يزال المنافسون ضعفاء جدًا، لقد تغلبنا عليهم بسهولة كبيرة".
وبما أن البشر قادرون على استخدام تكتيكات الروبوتات العدائية لهزيمة أنظمة Go AI الرائدة، فهل لا يزال من المنطقي تسمية هذه الأنظمة بأنها خارقة للبشر؟ يقول جليف: "هذا سؤال رائع، وقد تصارعت معه بالتأكيد". "لقد بدأنا نقول،" عادة فوق طاقة البشر "." يقول ديفيد وو، عالم الكمبيوتر في نيويورك الذي طور KataGo لأول مرة، إن الذكاء الاصطناعي القوي من Go هو "فوق طاقة البشر في المتوسط"، ولكن ليس "في أسوأ الحالات".
يقول جليف إن النتائج يمكن أن يكون لها آثار بعيدة المدى على أنظمة الذكاء الاصطناعي، بما في ذلك الذكاء الاصطناعي نماذج لغوية كبيرة تشكل أساس برامج الدردشة الآلية مثل ChatGPT. يقول جليف: "الخلاصة الرئيسية للذكاء الاصطناعي هي أنه سيكون من الصعب معالجة نقاط الضعف هذه". "إذا لم نتمكن من حل المشكلة في منطقة بسيطة مثل Go، فيبدو أن هناك احتمالًا ضئيلًا لإصلاح مشكلات مماثلة مثل عمليات كسر الحماية في ChatGPT في المستقبل القريب."
يقول تشانغ إن ما تعنيه النتائج بالنسبة لإمكانية إنشاء ذكاء اصطناعي يتجاوز القدرات البشرية بشكل شامل هو أمر أقل وضوحًا. ويقول: "على الرغم من أن هذا يشير ظاهريًا إلى أن البشر قد يحتفظون بمزايا معرفية مهمة مقارنة بالذكاء الاصطناعي لبعض الوقت، إلا أنني أعتقد أن الفكرة الرئيسية هي أن نحن لا نفهم بشكل كامل بعد أنظمة الذكاء الاصطناعي التي نبنيها اليوم ".
