أعلنت مؤسسة آرك برايز، وهي منظمة غير ربحية، عن ابتكارها اختبارًا جديدًا وصعبًا لقياس الذكاء العام لنماذج الذكاء الاصطناعي الرائدة.
وتمكّن الاختبار الجديد، المسمى ARC-AGI-2، من اجتياز معظم النماذج بنجاح، وفقًا لقائمة المتصدرين في جائزة آرك، حققت نماذج الذكاء الاصطناعي القائمة على الاستدلال، مثل o1-pro من OpenAI وR1 من DeepSeek، نسبة تتراوح بين 1% و1.3% في اختبار ARC-AGI-2، بينما حققت نماذج قوية غير قائمة على الاستدلال، مثل GPT-4.5 وClaude 3.7 Sonnet وGemini 2.0 Flash، نسبة 1% تقريبًا.
تتكون اختبارات ARC-AGI من مسائل شبيهة بالألغاز، حيث يتعين على الذكاء الاصطناعي تحديد الأنماط البصرية من مجموعة من المربعات ذات الألوان المختلفة، وإنشاء شبكة "الإجابات" الصحيحة، و صُممت هذه المسائل لإجبار الذكاء الاصطناعي على التكيف مع مسائل جديدة لم يسبق له رؤيتها.
وقد شارك أكثر من 400 شخص في اختبار ARC-AGI-2 من مؤسسة جائزة آرك لتحديد مستوى الأداء البشري، و في المتوسط، أجابت "لجان" من هؤلاء الأشخاص على 60% من أسئلة الاختبار بشكل صحيح - وهي نسبة أفضل بكثير من نتائج أي من النماذج الأخرى.
ويعد اختبار ARC-AGI-2 يُعدّ مقياسًا أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من النسخة الأولى من الاختبار، ARC-AGI-1.
وتهدف اختبارات مؤسسة جائزة آرك إلى تقييم قدرة نظام الذكاء الاصطناعي على اكتساب مهارات جديدة بكفاءة خارج نطاق البيانات التي تدرب عليها.