أعجب العلماء بأحدث طراز chatgpt O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
يمتدح العلماء طراز ChatGPT الجديد O1 من Openai لتقدمه المثير للإعجاب في دعم العلوم. (Symbolbild/natur.wiki)

أعجب العلماء بأحدث طراز chatgpt O1

يقول الباحثون الذين ساعدوا في اختبار نموذج اللغة الكبيرة الجديدة من Openai ، Openai O1 ، إنها خطوة كبيرة من حيث استخدام chatbots للعلوم يمثل.

"في منطقتي من الفيزياء الكم ، هناك إجابات أكثر تفصيلاً وأكثر تماسكًا" مما كانت عليه في النموذج السابق ، GPT-4O ، كما يقول ماريو كرين ، رئيس مختبر العالم الاصطناعي في معهد ماكس بلانك لفيزياء الضوء في إرلانغن ، ألمانيا. ينتمي Krenn إلى مجموعة من العلماء في "الفريق الأحمر" ، الذي اختبر ما قبل O1 لـ Openai ، وهي شركة تكنولوجيا مقرها في سان فرانسيسكو ، كاليفورنيا ، من خلال تجربة الروبوت والتحقق منها على المخاوف الأمنية.

منذ المهارات في عدد كبير من الاختبارات الموحدة يشرح

Openaai أن

تجاوز طلاب الدكتوراه

Andrew White ، A رائع هو O1 أول نموذج لغة رئيسي يتفوق عليه طلاب الدكتوراه في أسئلة أصعب-يتفوق على "HREF ="#ref-cr1 "track =" click ". يذكر Openai أن الباحثين حقق ما يقرب من 70 ٪ في GPQA Diamond ، في حين بلغ O1 ما مجموعه 78 ٪ ، مع نتيجة عالية بشكل خاص في الفيزياء (انظر "المستوى التالي"). يقول ديفيد راين ، الذي كان جزءًا من الفريق الذي طور GPQA ، هذا "أعلى بكثير من أفضل أداء موثق التالي". حاليًا ، يعمل تقييم نموذج المنظمة غير الهادفة للربح وأبحاث التهديدات في بيركلي ، كاليفورنيا ، والذي يتعامل مع تقييم مخاطر الذكاء الاصطناعي. ويضيف: "يبدو لي معقولًا أن هذا يمثل تحسناً كبيرًا وأساسيًا في المهارات الأساسية للنموذج".

اختبر Openaai أيضًا O1 أثناء اختبار التأهيل لأولمبياد الرياضيات الدولي. أفضل نموذج سابق ، GPT-4O ، حل 13 ٪ فقط من المهام بشكل صحيح ، في حين حقق O1 83 ٪.

فكر في العمليات

يعمل Openai O1 مع سلسلة من الخطوات التذكارية: إنها تتحدث من خلال عدد من الاعتبارات أثناء محاولة حل مشكلة وتصحيح نفسها.

قرر

Openaai الاحتفاظ بتفاصيل سلسلة فكرية معينة - جزئياً لأن السلسلة قد تحتوي على أخطاء أو "أفكار" غير مقبولة اجتماعيًا ، وجزئيًا لحماية أسرار الشركات حول كيفية عمل النموذج. بدلاً من ذلك ، يقدم O1 ملخصًا أعيد بناؤه لمنطقه للمستخدم مع إجاباته. من غير الواضح ، وفقًا لـ White ، ما إذا كانت سلسلة العقول الكاملة ، إذا تم الكشف عنها ، ستكون لها أوجه تشابه مع التفكير البشري.

المهارات الجديدة لها أيضًا جوانبها المظلمة. يذكر Openai أنه قد تلقى ردود فعل قصصية مفادها أن نماذج O1 "هلوسات" في كثير من الأحيان قد تم اختراع إجابات كاذبة-مثل أسلافها (على الرغم من أن الاختبارات الداخلية لـ O1 تظهر معدلات الهلوسة أقل قليلاً).

وجد علماء الفريق الأحمر العديد من الخيارات لكيفية مفيدة O1 في تطوير البروتوكولات للتجارب العلمية ، لكن Openaai يقول إن المختبرين أظهروا أيضًا "عدم وجود معلومات عن الأمان على الخطوات الضارة ، مثل عدم إذاعة مخاطر الانفجار أو الاقتراحات غير الكافية عن طرق السلامة الكيميائية ، والتي تشير إلى داخل النموذج في الصعود إلى الأمان.

"لا يزال غير مثالي أو موثوق بما يكفي حتى لا يتم فحصه بالضبط" ، كما يقول وايت. ويضيف أن O1 أكثر ملاءمة لـ

حل مشكلات العلوم

يعتقد Krenn أن O1 سوف يسرع العلم من خلال المساعدة في مسح الأدب ، والتعرف على الفجوات واقتراح أساليب البحث المثيرة للاهتمام للدراسات المستقبلية. قام بدمج O1 في أداة قام بتطويرها والتي تتيح هذا يسمى Scimuse 2 . يقول: "إنه يولد أفكارًا أكثر إثارة للاهتمام من GPT-4 أو GPT-4O".

Kyle Kabasares ، عالم بيانات في معهد Bay Area للبحوث البيئية في Moffett Field ، كاليفورنيا ، استخدم O1 لتكرار بعض خطوات البرمجة من مشروع الدكتوراه الخاص به ، الذي يحسب كتلة الثقوب السوداء. يقول: "لقد غمرت فقط" ، لاحظ أن O1 بحاجة إلى حوالي ساعة لتحقيق ما كلفه لعدة أشهر.

يقول

كاثرين براونشتاين ، عالم الوراثة في مستشفى بوسطن للأطفال في ماساتشوستس ، إن المستشفى يختبر حاليًا العديد من أنظمة الذكاء الاصطناعي ، بما في ذلك معاينة O1 ، لتطبيقات مثل الكشف عن العلاقات بين خصائص المريض والجينات للأمراض النادرة. وتقول إن O1 "أكثر دقة ويقدم خيارات لم أكن أعتقد أنها كانت ممكنة من روبوت الدردشة".

  1. RINE ، D. et al. preprint في arxiv gu ، x. & Krenn ، M. preprint at arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  2. تنزيل المراجع