ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع

يتحسن الذكاء الاصطناعي بسرعة ويمكن أن يتولى قريباً المشاريع التي يحتاجها الناس لأسابيع. تُظهر تحليلات الخبراء أن نماذج AI الرائدة قيد التقدم ويمكن أن تتعامل مع الخبرة البشرية في وقت أقصر بحلول عام 2029.
(Symbolbild/natur.wiki)

ستتولى الذكاء الاصطناعى قريبًا مشاريع سيكلف الناس أسابيع

لا يمكن أن تتجاوز الأنظمة الحالية للذكاء الاصطناعي (AI) الأشخاص في مهام طويلة ، ومع ذلك ، repid ويمكن أن يغلق الفجوة بشكل أسرع من Traction Track = transe transe aldight ". "المراجع"> 1

طورت المنظمة غير الربحية Metreley ، كاليفورنيا ، ما يقرب من 170 مهمة حقيقية في مجالات البرمجة ، والأمن السيبراني ، والتفكير العام ، والتعلم الميكانيكي ، ثم تحديد "خط قاعدة بشري" من خلال قضاء بعض الوقت الذي يحتاج إلى الخبراء لإكمال هذه المهام.

قام الفريق بعد ذلك بتطوير شخصية رئيسية لتقييم تقدم نماذج AI ، والتي تسمى" مهام الوقت ، الأفق الزمني ". هذا هو الوقت الذي يحتاج فيه المبرمجون عادةً إلى إكمال المهام ، يمكنهم القيام بنماذج الذكاء الاصطناعى بمعدل نجاح معين.

في Preprint المنشورة هذا الأسبوع في Arxiv تقارير أن GPT-2 ، نموذج صوت كبير مبكر (LLM) ، الذي نشرته Openai في عام 2019 ، فشل في جميع المهام التي تكلفها الخبراء البشريون أكثر من دقيقة. أكملت كلود 3.7 Sonnet ، التي أصدرتها شركة Start-up Start-Up في فبراير ، 50 ٪ من المهام التي سيستغرقها الناس 59 دقيقة.

بشكل عام ، تضاعف الأفق الزمني لـ 13 نماذج من الذكاء الاصطناعي كل سبعة أشهر منذ عام 2019 ، وفقًا للدراسة. تسارع النمو الأسي لآفاق AI Time في عام 2024 ، حيث تضاعف أحدث النماذج آفاقها كل ثلاثة أشهر. لم يتم فحص العمل رسميًا.

في التقدم من 2019 إلى 2024 ، يقترح Metr أن نماذج الذكاء الاصطناعى يمكنها إدارة المهام بحلول عام 2029 التي يحتاجها الناس حوالي شهر ، مع موثوقية 50 ٪ ، وربما حتى قبل ذلك.

شهر من الخبرة البشرية الملتزمة ، وفقًا للورقة ، يمكن أن يكون كافياً لبدء شركة جديدة أو اكتشاف اكتشافات علمية.

يوضح جوشوا جان ، أستاذ الإدارة في جامعة تورنتو في كندا ، الذي كتب عن اقتصاد الذكاء الاصطناعي ، أن مثل هذه التنبؤات ليست مفيدة بشكل خاص. يقول: "الاستقراء مغرية ، ولكن لا يزال هناك الكثير لدرجة أننا لا نعرف كيف يتم استخدام الذكاء الاصطناعي فعليًا بحيث تكون هذه التنبؤات منطقية".

تقييم الإنسان مقابل كي

اختار الفريق معدل نجاح 50 ٪ لأنه كان أكثر قوة مقارنة بالتغيرات الصغيرة في توزيع البيانات. "إذا اخترت قيم عتبة منخفضة للغاية أو عالية جدًا ، فإن إضافة أو إزالة مهمة واحدة ناجحة أو فاشلة ، قم بتغيير التقدير وفقًا لـ" ، يوضح المؤلف المشترك لورانس تشان.

زيادة في الموثوقية من 50 ٪ إلى 80 ٪ خفضت متوسط ​​الأفق الزمني بعامل خمسة - على الرغم من أن الوقت المضاعف العام وخط الاتجاه كان متشابها.

في السنوات الخمس الماضية ، تحسينات مدفوعة بشكل رئيسي يزيد من النطاق-يزيد مقدار بيانات التدريب ووقت التدريب وعدد معلمات النموذج. تقود الورقة التقدم في الشكل الرئيسي للأفق الزمني بشكل أساسي إلى التحسينات في الوسيطة المنطقية ، واستخدام الأدوات ، وتصحيح الخطأ ، والثقة بالنفس في الوفاء بالمهام.

يعالج نهج METR لتقييم الأفق الزمني بعض القيود المفروضة على معايير الذكاء الاصطناعى الحالية ، والتي تتطابق مع العمل الحقيقي فقط و "مشبعة" بسرعة عندما تتحسن النماذج. يقول ميتوور بن ويست: إنه يوفر مقياسًا مستمرًا وبديهيًا يسجل تقدمًا كبيرًا على مدى فترة زمنية أطول.

يحقق نماذج AI الرائدة أداءً خارقًا في العديد من Anton Troynikov ، وهو باحث من منظمة العفو الدولية ورجل أعمال من سان فرانسيسكو ، كاليفورنيا ، أن الذكاء الاصطناعى سيكون له تأثير اقتصادي أكبر إذا كانت المنظمات على استعداد بشكل أفضل للتجربة والاستثمار في الاستخدام الفعال للنماذج.

  1. KWA ، T. et al. preprint في arxiv (2025).

  2. تنزيل المراجع