ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع

ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع
لا يمكن أن تتجاوز الأنظمة الحالية للذكاء الاصطناعي (AI) الأشخاص في مهام طويلة ، ومع ذلك ، repid ويمكن أن يغلق الفجوة بشكل أسرع من Traction Track = transe transe aldight ". "المراجع"> 1
طورت المنظمة غير الربحية Metreley ، كاليفورنيا ، ما يقرب من 170 مهمة حقيقية في مجالات البرمجة ، والأمن السيبراني ، والتفكير العام ، والتعلم الميكانيكي ، ثم تحديد "خط قاعدة بشري" من خلال قضاء بعض الوقت الذي يحتاج إلى الخبراء لإكمال هذه المهام.
قام الفريق بعد ذلك بتطوير شخصية رئيسية لتقييم تقدم نماذج AI ، والتي تسمى" مهام الوقت ، الأفق الزمني ". هذا هو الوقت الذي يحتاج فيه المبرمجون عادةً إلى إكمال المهام ، يمكنهم القيام بنماذج الذكاء الاصطناعى بمعدل نجاح معين.
في Preprint المنشورة هذا الأسبوع في Arxiv تقارير أن GPT-2 ، نموذج صوت كبير مبكر (LLM) ، الذي نشرته Openai في عام 2019 ، فشل في جميع المهام التي تكلفها الخبراء البشريون أكثر من دقيقة. أكملت كلود 3.7 Sonnet ، التي أصدرتها شركة Start-up Start-Up في فبراير ، 50 ٪ من المهام التي سيستغرقها الناس 59 دقيقة.
بشكل عام ، تضاعف الأفق الزمني لـ 13 نماذج من الذكاء الاصطناعي كل سبعة أشهر منذ عام 2019 ، وفقًا للدراسة. تسارع النمو الأسي لآفاق AI Time في عام 2024 ، حيث تضاعف أحدث النماذج آفاقها كل ثلاثة أشهر. لم يتم فحص العمل رسميًا.
في التقدم من 2019 إلى 2024 ، يقترح Metr أن نماذج الذكاء الاصطناعى يمكنها إدارة المهام بحلول عام 2029 التي يحتاجها الناس حوالي شهر ، مع موثوقية 50 ٪ ، وربما حتى قبل ذلك.
شهر من الخبرة البشرية الملتزمة ، وفقًا للورقة ، يمكن أن يكون كافياً لبدء شركة جديدة أو اكتشاف اكتشافات علمية.
يوضح جوشوا جان ، أستاذ الإدارة في جامعة تورنتو في كندا ، الذي كتب عن اقتصاد الذكاء الاصطناعي ، أن مثل هذه التنبؤات ليست مفيدة بشكل خاص. يقول: "الاستقراء مغرية ، ولكن لا يزال هناك الكثير لدرجة أننا لا نعرف كيف يتم استخدام الذكاء الاصطناعي فعليًا بحيث تكون هذه التنبؤات منطقية".
تقييم الإنسان مقابل كي
اختار الفريق معدل نجاح 50 ٪ لأنه كان أكثر قوة مقارنة بالتغيرات الصغيرة في توزيع البيانات. "إذا اخترت قيم عتبة منخفضة للغاية أو عالية جدًا ، فإن إضافة أو إزالة مهمة واحدة ناجحة أو فاشلة ، قم بتغيير التقدير وفقًا لـ" ، يوضح المؤلف المشترك لورانس تشان.
زيادة في الموثوقية من 50 ٪ إلى 80 ٪ خفضت متوسط الأفق الزمني بعامل خمسة - على الرغم من أن الوقت المضاعف العام وخط الاتجاه كان متشابها.
في السنوات الخمس الماضية ، تحسينات مدفوعة بشكل رئيسي يزيد من النطاق-يزيد مقدار بيانات التدريب ووقت التدريب وعدد معلمات النموذج. تقود الورقة التقدم في الشكل الرئيسي للأفق الزمني بشكل أساسي إلى التحسينات في الوسيطة المنطقية ، واستخدام الأدوات ، وتصحيح الخطأ ، والثقة بالنفس في الوفاء بالمهام.
يعالج نهج METR لتقييم الأفق الزمني بعض القيود المفروضة على معايير الذكاء الاصطناعى الحالية ، والتي تتطابق مع العمل الحقيقي فقط و "مشبعة" بسرعة عندما تتحسن النماذج. يقول ميتوور بن ويست: إنه يوفر مقياسًا مستمرًا وبديهيًا يسجل تقدمًا كبيرًا على مدى فترة زمنية أطول.
يحقق نماذج AI الرائدة أداءً خارقًا في العديد من Anton Troynikov ، وهو باحث من منظمة العفو الدولية ورجل أعمال من سان فرانسيسكو ، كاليفورنيا ، أن الذكاء الاصطناعى سيكون له تأثير اقتصادي أكبر إذا كانت المنظمات على استعداد بشكل أفضل للتجربة والاستثمار في الاستخدام الفعال للنماذج.
-
KWA ، T. et al. preprint في arxiv (2025).