أعجب العلماء بأحدث طراز ChatGPT o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

يشيد العلماء بنموذج ChatGPT الجديد من OpenAI o1 لما حققه من تقدم مثير للإعجاب في دعم العلوم.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
يشيد العلماء بنموذج ChatGPT الجديد من OpenAI o1 لما حققه من تقدم مثير للإعجاب في دعم العلوم.

أعجب العلماء بأحدث طراز ChatGPT o1

يقول الباحثون الذين ساعدوا في اختبار نموذج اللغة الكبير الجديد لـ OpenAI، OpenAI o1، إنها خطوة كبيرة إلى الأمام من حيث فائدة chatbots للعلوم يمثل.

يقول ماريو كرين، رئيس مختبر العلماء الاصطناعي في معهد ماكس بلانك لفيزياء الضوء في إرلانجن بألمانيا: "في مجال فيزياء الكم، توجد إجابات أكثر تفصيلًا وتماسكًا بشكل ملحوظ" مقارنة بالنموذج السابق، GPT-4o. كان Krenn جزءًا من مجموعة من العلماء في "الفريق الأحمر" الذي اختبر الإصدار التجريبي من o1 لشركة OpenAI، وهي شركة تكنولوجيا مقرها في سان فرانسيسكو، كاليفورنيا، وقاموا بإخضاع الروبوت لخطواته والتحقق من المخاوف الأمنية.

منذ الإطلاق العام لـ ChatGPT في عام 2022 في المتوسط، أصبحت نماذج اللغة الكبيرة التي تدعم روبوتات الدردشة هذه أكبر وأفضل، مع المزيد من المعلمات ومجموعات بيانات التدريب الأكبر و مهارات أقوى في مجموعة متنوعة من الاختبارات الموحدة.

يشرح OpenAI أن سلسلة O1 يمثل تغييرا جوهريا في نهج الشركة. يشير المراقبون إلى أن نموذج الذكاء الاصطناعي هذا يبرز لأنه قضى وقتًا أطول في مراحل تعلم معينة و"يفكر" لفترة أطول في إجاباته، مما يجعله أبطأ ولكنه أكثر قدرة - خاصة في المجالات التي يتم فيها تحديد الإجابات الصحيحة والخاطئة بوضوح. وتضيف الشركة أن o1 يمكنه "التفكير في المهام المعقدة وحل المشكلات الأكثر صعوبة من النماذج السابقة في العلوم والبرمجة والرياضيات". في الوقت الحالي، يتوفر إصدار o1-preview وo1-mini — وهو إصدار أصغر حجمًا وأكثر فعالية من حيث التكلفة ومناسب للبرمجة — في الاختبار للعملاء الذين يدفعون رسومًا وبعض المطورين. لم تنشر الشركة أي معلومات حول المعلمات أو القوة الحاسوبية لنماذج o1.

التفوق على طلاب الدراسات العليا

أندرو وايت، أ كيميائي في FutureHouse، وهي منظمة غير ربحية في سان فرانسيسكو تركز على كيفية تطبيق الذكاء الاصطناعي على البيولوجيا الجزيئية، تقول إنه على مدى العام ونصف العام الماضيين، لاحظ المراقبون منذ الإصدار العام لـ GPT-4 ، فوجئوا وخاب أملهم بسبب النقص العام في التحسن في كيفية دعم روبوتات الدردشة للمهام العلمية. ويعتقد أن سلسلة o1 قد غيرت هذا.

ومن اللافت للنظر أن o1 هو أول نموذج لغة رئيسي يتفوق على طلاب الدراسات العليا في السؤال الأكثر صعوبة - المجموعة "الماسيية" - في اختبار يسمى معيار الأسئلة والأجوبة لجوجل على مستوى الدراسات العليا (GPQA). 1. تقول شركة OpenAI إن باحثيها سجلوا أقل من 70% في اختبار GPQA Diamond، في حين سجل o1 78% بشكل عام، مع درجة عالية بشكل خاص بلغت 93% في الفيزياء (انظر "المستوى التالي"). يقول ديفيد رين، الذي كان جزءًا من الفريق الذي طور GPQA، إن هذا "أعلى بكثير من أفضل أداء موثق لـ [chatbot]". يعمل رين حاليًا في مؤسسة التقييم النموذجي وأبحاث التهديدات غير الربحية في بيركلي، كاليفورنيا، والتي تعمل على تقييم مخاطر الذكاء الاصطناعي. ويضيف: "يبدو من المعقول بالنسبة لي أن هذا يمثل تحسنًا كبيرًا وجوهريًا في القدرات الأساسية للنموذج".

قامت OpenAI أيضًا باختبار o1 في الاختبار التأهيلي لأولمبياد الرياضيات الدولي. النموذج السابق الأفضل، GPT-4o، نجح في حل 13% فقط من المهام بشكل صحيح، بينما سجل o1 83%.

التفكير في العمليات

يعمل OpenAI o1 بسلسلة من خطوات التفكير: فهو يتحدث عن نفسه من خلال سلسلة من الاعتبارات أثناء محاولته حل مشكلة ما، وتصحيح نفسه أثناء تقدمه.

لقد اختارت شركة OpenAI الاحتفاظ بسرية تفاصيل سلسلة أفكار معينة، ويرجع ذلك جزئيًا إلى أن السلسلة قد تحتوي على أخطاء أو "أفكار" غير مقبولة اجتماعيًا، وجزئيًا لحماية أسرار الشركات حول كيفية عمل النموذج. وبدلاً من ذلك، يقدم o1 ملخصًا مُعاد بناؤه للمنطق الخاص به للمستخدم، بالإضافة إلى إجاباته. يقول وايت إنه من غير الواضح ما إذا كان التسلسل الكامل لخطوات التفكير، إذا تم الكشف عنه، سيحمل أي تشابه مع الفكر البشري.

القدرات الجديدة لها أيضًا جوانبها السلبية. تشير شركة OpenAI إلى أنها تلقت ردود فعل غير رسمية تفيد بأن نماذج o1 "تهلوس" - أي تخترع إجابات كاذبة - بشكل متكرر أكثر من سابقاتها (على الرغم من أن الاختبار الداخلي للشركة لـ o1 أظهر معدلات هلوسة أقل قليلاً).

لاحظ علماء الفريق الأحمر العديد من الطرق التي كان بها o1 مفيدًا في تطوير بروتوكولات للتجارب العلمية، لكن OpenAI تقول إن المختبرين "سلطوا الضوء أيضًا على نقص معلومات السلامة حول الخطوات الضارة، مثل عدم تسليط الضوء على مخاطر الانفجار أو اقتراح طرق سلامة كيميائية غير مناسبة، مما يشير إلى عدم كفاية النموذج عندما يتعلق الأمر بالمهام الحرجة المتعلقة بالسلامة".

يقول وايت: "إنها لا تزال غير مثالية أو موثوقة بدرجة كافية بحيث لا تحتاج إلى التدقيق". ويضيف أن o1 أكثر ملاءمة لـ كبار الخبراء كمبتدئين. ويقول: "إن الأمر يتجاوز قدرتهم المباشرة على المبتدئين أن ينظروا إلى السجل الناتج عن o1 ويدركوا أنه هراء".

حلال مشاكل العلوم

يعتقد كرين أن o1 سوف يسرع العلوم من خلال المساعدة في فحص الأدبيات وتحديد الثغرات واقتراح طرق بحثية مثيرة للاهتمام للدراسات المستقبلية. لقد قام بدمج o1 في أداة ساعد في تطويرها والتي تجعل هذا ممكنًا، تسمى SciMuse 2. ويقول: "إنها تولد أفكارًا أكثر إثارة للاهتمام من GPT-4 أو GPT-4o".

كايل كاباساريس، عالم البيانات في معهد أبحاث البيئة في منطقة الخليج في موفيت فيلد، كاليفورنيا، استخدم o1 للقيام ببعض خطوات البرمجة من مشروع الدكتوراه الخاص به الذي قام بحساب كتلة الثقوب السوداء. يقول: "لقد أذهلني الأمر"، مشيرًا إلى أن الأمر استغرق حوالي ساعة لإنجاز ما استغرق عدة أشهر.

تقول كاثرين براونستين، عالمة الوراثة في مستشفى بوسطن للأطفال في ماساتشوستس، إن المستشفى يختبر حاليًا العديد من أنظمة الذكاء الاصطناعي، بما في ذلك معاينة o1، لتطبيقات مثل الكشف عن الروابط بين خصائص المريض وجينات الأمراض النادرة. وتقول إن o1 "أكثر دقة ويقدم خيارات لم أكن أعتقد أنها ممكنة من خلال برنامج الدردشة الآلي".

  1. رين، D. وآخرون. طبع مسبقًا في arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu، X. & Krenn، M. Preprint في arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

تحميل المراجع