سوف يتولى الذكاء الاصطناعي قريبًا المشاريع التي تستغرق أسابيع من البشر
يتحسن الذكاء الاصطناعي بسرعة ويمكن أن يتولى قريبًا تنفيذ مشاريع تستغرق من البشر أسابيع لإكمالها. يُظهر تحليل الخبراء أن نماذج الذكاء الاصطناعي الرائدة تحرز تقدمًا ويمكنها إكمال المهام بالخبرة البشرية في وقت أقل بحلول عام 2029.

سوف يتولى الذكاء الاصطناعي قريبًا المشاريع التي تستغرق أسابيع من البشر
لا تستطيع أنظمة الذكاء الاصطناعي اليوم أن تتفوق على البشر في المهام الطويلة، لكنها تتطور بسرعة ويمكن أن يؤدي ذلك إلى سد الفجوة بشكل أسرع مما توقعه الكثيرون، وفقا لتحليل النماذج الرائدة 1.
قامت منظمة METR غير الربحية ومقرها بيركلي بولاية كاليفورنيا بتطوير ما يقرب من 170 مهمة في العالم الحقيقي في البرمجة والأمن السيبراني والتفكير العام والتعلم الآلي، ثم أنشأت "خط الأساس البشري" من خلال قياس الوقت الذي يستغرقه الخبراء لإكمال تلك المهام.
ثم قام الفريق بتطوير مقياس لتقييم التقدم المحرز نماذج الذكاء الاصطناعي وهو ما يسمى "الأفق الزمني لإنجاز المهمة". هذا هو الوقت الذي يستغرقه المبرمجون عادةً لإكمال المهام التي يمكن لنماذج الذكاء الاصطناعي إكمالها بمعدل نجاح معين.
في طبعة أولية نُشرت هذا الأسبوع على arXiv، أفادت METR أن GPT-2، وهو نموذج لغة كبير مبكر (LLM) أصدرته OpenAI في عام 2019، فشل في جميع المهام التي استغرقت الخبراء البشريين أكثر من دقيقة. أكمل Claude 3.7 Sonnet، الذي أصدرته شركة Anthropic الأمريكية الناشئة في فبراير، 50% من المهام التي قد تستغرق 59 دقيقة من البشر.
بشكل عام، تضاعف الأفق الزمني لنماذج الذكاء الاصطناعي الثلاثة عشر الرائدة كل سبعة أشهر تقريبًا منذ عام 2019، وفقًا للدراسة. تسارع النمو المتسارع للآفاق الزمنية للذكاء الاصطناعي في عام 2024، حيث تضاعف أحدث النماذج أفقها كل ثلاثة أشهر تقريبًا. ولم تتم مراجعة العمل رسميًا بعد.
وبالمضي قدمًا من عام 2019 إلى عام 2024، تشير METR إلى أن نماذج الذكاء الاصطناعي ستكون قادرة على إكمال المهام التي تستغرق من البشر حوالي شهر مع موثوقية بنسبة 50٪ بحلول عام 2029، وربما حتى قبل ذلك.
تشير الورقة إلى أن شهرًا واحدًا من الخبرة البشرية المخصصة يمكن أن يكون كافيًا لبدء شركة جديدة أو تحقيق اكتشافات علمية.
ومع ذلك، يوضح جوشوا غانز، أستاذ الإدارة بجامعة تورنتو في كندا والذي كتب عن اقتصاديات الذكاء الاصطناعي، أن مثل هذه التنبؤات ليست مفيدة بشكل خاص. ويقول: "إن الاستقراءات مغرية، ولكن لا يزال هناك الكثير مما لا نعرفه عن كيفية استخدام الذكاء الاصطناعي فعليًا لجعل هذه التنبؤات منطقية".
الحكم على البشر مقابل الذكاء الاصطناعي
اختار الفريق معدل النجاح بنسبة 50% لأنه كان أقوى بالنسبة للتغييرات الصغيرة في توزيع البيانات. يوضح المؤلف المشارك لورانس تشان: "إذا اخترت عتبات منخفضة جدًا أو عالية جدًا، فإن إضافة أو إزالة مهمة واحدة ناجحة أو فاشلة وفقًا لذلك يغير التقدير بشكل كبير".
أدت زيادة الموثوقية من 50% إلى 80% إلى خفض متوسط الأفق الزمني بمقدار خمسة أضعاف ــ على الرغم من تشابه الوقت الإجمالي المضاعف وخط الاتجاه.
على مدى السنوات الخمس الماضية، تم إجراء تحسينات على المهارات العامة لـ LLMs مدفوعًا في المقام الأول بالزيادات في الحجم - كمية بيانات التدريب، ووقت التدريب، وعدد معلمات النموذج. تعزو الورقة التقدم في مقياس الأفق الزمني في المقام الأول إلى التحسينات في التفكير المنطقي، واستخدام الأدوات، وتصحيح الأخطاء، والثقة في المهمة.
يعالج نهج METR في تقييم الآفاق الزمنية بعض القيود المفروضة على معايير الذكاء الاصطناعي الحالية، والتي لا تتطابق إلا بشكل فضفاض مع العمل في العالم الحقيقي وسرعان ما تصبح "مشبعة" مع تحسن النماذج. يقول المؤلف المشارك بن ويست، إنه يوفر مقياسًا مستمرًا وبديهيًا يرصد بشكل أفضل التقدم الكبير بمرور الوقت.
تحقق نماذج الذكاء الاصطناعي الرائدة أداءً خارقًا في كثير من الأحيان اختبار المعيار لكن حتى الآن كان لها تأثير اقتصادي ضئيل نسبيًا، كما يوضح ويست. يقدم أحدث بحث لـ METR إجابة جزئية لهذا اللغز: أفضل النماذج تظهر إطارًا زمنيًا يبلغ حوالي 40 دقيقة، ولا يوجد الكثير من العمل ذي القيمة الاقتصادية التي يمكن للشخص القيام بها في ذلك الوقت، كما قال ويست.
ومع ذلك، يوضح أنطون تروينيكوف، الباحث في الذكاء الاصطناعي ورجل الأعمال من سان فرانسيسكو، كاليفورنيا، أن الذكاء الاصطناعي سيكون له تأثير اقتصادي أكبر إذا كانت المنظمات أكثر استعدادًا للتجربة والاستثمار في استخدام النماذج بفعالية.
-
كوا، T. وآخرون. طبع مسبقًا في arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).