ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع

ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع

لا يمكن أن تتجاوز الأنظمة الحالية للذكاء الاصطناعي (AI) الأشخاص في مهام طويلة ، ومع ذلك ، repid ويمكن أن يغلق الفجوة بشكل أسرع من Traction Track = transe transe aldight ". "المراجع"> 1

طورت المنظمة غير الربحية Metreley ، كاليفورنيا ، ما يقرب من 170 مهمة حقيقية في مجالات البرمجة ، والأمن السيبراني ، والتفكير العام ، والتعلم الميكانيكي ، ثم تحديد "خط قاعدة بشري" من خلال قضاء بعض الوقت الذي يحتاج إلى الخبراء لإكمال هذه المهام.

قام الفريق بعد ذلك بتطوير شخصية رئيسية لتقييم تقدم نماذج AI ، والتي تسمى" مهام الوقت ، الأفق الزمني ". هذا هو الوقت الذي يحتاج فيه المبرمجون عادةً إلى إكمال المهام ، يمكنهم القيام بنماذج الذكاء الاصطناعى بمعدل نجاح معين.

في Preprint المنشورة هذا الأسبوع في Arxiv تقارير أن GPT-2 ، نموذج صوت كبير مبكر (LLM) ، الذي نشرته Openai في عام 2019 ، فشل في جميع المهام التي تكلفها الخبراء البشريون أكثر من دقيقة. أكملت كلود 3.7 Sonnet ، التي أصدرتها شركة Start-up Start-Up في فبراير ، 50 ٪ من المهام التي سيستغرقها الناس 59 دقيقة.

بشكل عام ، تضاعف الأفق الزمني لـ 13 نماذج من الذكاء الاصطناعي كل سبعة أشهر منذ عام 2019 ، وفقًا للدراسة. تسارع النمو الأسي لآفاق AI Time في عام 2024 ، حيث تضاعف أحدث النماذج آفاقها كل ثلاثة أشهر. لم يتم فحص العمل رسميًا.

في التقدم من 2019 إلى 2024 ، يقترح Metr أن نماذج الذكاء الاصطناعى يمكنها إدارة المهام بحلول عام 2029 التي يحتاجها الناس حوالي شهر ، مع موثوقية 50 ٪ ، وربما حتى قبل ذلك.

شهر من الخبرة البشرية الملتزمة ، وفقًا للورقة ، يمكن أن يكون كافياً لبدء شركة جديدة أو اكتشاف اكتشافات علمية.

يوضح جوشوا جان ، أستاذ الإدارة في جامعة تورنتو في كندا ، الذي كتب عن اقتصاد الذكاء الاصطناعي ، أن مثل هذه التنبؤات ليست مفيدة بشكل خاص. يقول: "الاستقراء مغرية ، ولكن لا يزال هناك الكثير لدرجة أننا لا نعرف كيف يتم استخدام الذكاء الاصطناعي فعليًا بحيث تكون هذه التنبؤات منطقية".

تقييم الإنسان مقابل كي

اختار الفريق معدل نجاح 50 ٪ لأنه كان أكثر قوة مقارنة بالتغيرات الصغيرة في توزيع البيانات. "إذا اخترت قيم عتبة منخفضة للغاية أو عالية جدًا ، فإن إضافة أو إزالة مهمة واحدة ناجحة أو فاشلة ، قم بتغيير التقدير وفقًا لـ" ، يوضح المؤلف المشترك لورانس تشان.

زيادة في الموثوقية من 50 ٪ إلى 80 ٪ خفضت متوسط ​​الأفق الزمني بعامل خمسة - على الرغم من أن الوقت المضاعف العام وخط الاتجاه كان متشابها.

في السنوات الخمس الماضية ، تحسينات مدفوعة بشكل رئيسي يزيد من النطاق-يزيد مقدار بيانات التدريب ووقت التدريب وعدد معلمات النموذج. تقود الورقة التقدم في الشكل الرئيسي للأفق الزمني بشكل أساسي إلى التحسينات في الوسيطة المنطقية ، واستخدام الأدوات ، وتصحيح الخطأ ، والثقة بالنفس في الوفاء بالمهام.

يعالج نهج METR لتقييم الأفق الزمني بعض القيود المفروضة على معايير الذكاء الاصطناعى الحالية ، والتي تتطابق مع العمل الحقيقي فقط و "مشبعة" بسرعة عندما تتحسن النماذج. يقول ميتوور بن ويست: إنه يوفر مقياسًا مستمرًا وبديهيًا يسجل تقدمًا كبيرًا على مدى فترة زمنية أطول.

يحقق نماذج AI الرائدة أداءً خارقًا في العديد من Anton Troynikov ، وهو باحث من منظمة العفو الدولية ورجل أعمال من سان فرانسيسكو ، كاليفورنيا ، أن الذكاء الاصطناعى سيكون له تأثير اقتصادي أكبر إذا كانت المنظمات على استعداد بشكل أفضل للتجربة والاستثمار في الاستخدام الفعال للنماذج.

  1. KWA ، T. et al. preprint في arxiv (2025).

  2. تنزيل المراجع

Kommentare (0)