إذا كنت تبحث عن سبب جديد للقلق بشأن الذكاء الاصطناعي، جرب هذا: بعض أذكى البشر في العالم يكافحون لإنشاء اختبارات لا تستطيع أنظمة الذكاء الاصطناعي اجتيازها. لسنوات، تم قياس أنظمة الذكاء الاصطناعي من خلال منح النماذج الجديدة مجموعة متنوعة من اختبارات المعايير القياسية. تكونت العديد من هذه الاختبارات من مشكلات صعبة بمستوى اختبار القبول الجامعي (S.A.T.) في مجالات مثل الرياضيات والعلوم والمنطق. كانت مقارنة درجات النماذج بمرور الوقت بمثابة مقياس تقريبي لتقدم الذكاء الاصطناعي.
لكن أنظمة الذكاء الاصطناعي أصبحت في النهاية جيدة للغاية في تلك الاختبارات، لذا تم إنشاء اختبارات جديدة أصعب - غالباً مع أنواع الأسئلة التي قد يواجهها طلاب الدراسات العليا في امتحاناتهم. هذه الاختبارات ليست في حالة جيدة أيضاً. فقد حصلت النماذج الجديدة من شركات مثل OpenAI وGoogle وAnthropic على درجات عالية في العديد من تحديات مستوى الدكتوراه، مما يحد من فائدة تلك الاختبارات ويؤدي إلى سؤال مخيف: هل تصبح أنظمة الذكاء الاصطناعي ذكية جداً بحيث لا يمكننا قياسها؟
هذا الأسبوع، يقوم باحثون في مركز سلامة الذكاء الاصطناعي وScale AI بإطلاق إجابة محتملة على هذا السؤال: تقييم جديد، يسمى "الامتحان الأخير للبشرية"، يدعون أنه أصعب اختبار تم إجراؤه لأنظمة الذكاء الاصطناعي. "الامتحان الأخير للبشرية" هو نتاج فكر دان هندريكس، وهو باحث معروف في مجال سلامة الذكاء الاصطناعي ومدير مركز سلامة الذكاء الاصطناعي. (تم التخلي عن الاسم الأصلي للاختبار، "الموقف الأخير للبشرية"، لكونه مبالغاً فيه بشكل مفرط.)
عمل السيد هندريكس مع Scale AI، وهي شركة ذكاء اصطناعي حيث يعمل كمستشار، لتجميع الاختبار، الذي يتكون من حوالي 3000 سؤال اختيار من متعدد وأسئلة إجابات قصيرة مصممة لاختبار قدرات أنظمة الذكاء الاصطناعي في مجالات تتراوح من الفلسفة التحليلية إلى هندسة الصواريخ.
تم تقديم الأسئلة من قبل خبراء في هذه المجالات، بما في ذلك أساتذة الجامعات والرياضيين الحائزين على جوائز، الذين طُلب منهم ابتكار أسئلة صعبة للغاية يعرفون إجاباتها. هنا، جرب حظك في سؤال عن تشريح الطائر الطنان من الاختبار:
تمتلك الطيور الطنانة ضمن Apodiformes بشكل فريد عظمة بيضاوية مزدوجة جانبياً، وهي عظم سمسماني مدمج في الجزء الذيلي الجانبي من الغشاء الوتري المتصالب الموسع لإدخال عضلة خافضة الذيل. كم عدد الأوتار المزدوجة التي تدعمها هذه العظمة السمسمانية؟ أجب برقم.
-
تم وضع كتلة على سكة أفقية، يمكنها الانزلاق عليها بدون احتكاك. وهي متصلة بنهاية قضيب صلب عديم الكتلة طوله R. تم تثبيت كتلة في النهاية الأخرى. كلا الجسمين لهما وزن W. النظام ساكن في البداية، مع وجود الكتلة مباشرة فوق الكتلة الأولى. تم دفع الكتلة دفعة لا نهائية الصغر، موازية للسكة. افترض أن النظام مصمم بحيث يمكن للقضيب أن يدور بزاوية 360 درجة كاملة دون انقطاع. عندما يكون القضيب أفقياً، يحمل توتراً T1. عندما يصبح القضيب رأسياً مرة أخرى، مع وجود الكتلة مباشرة أسفل الكتلة الأولى، يحمل توتراً T2. (كلا هذين المقدارين يمكن أن يكونا سالبين، مما يشير إلى أن القضيب في حالة انضغاط.) ما هي قيمة (T1-T2)/W؟
-
كيفن زو، باحث ما بعد الدكتوراه في فيزياء الجسيمات النظرية في جامعة كاليفورنيا، بيركلي، قدم مجموعة من الأسئلة للاختبار. تم اختيار ثلاثة من أسئلته، وأخبرني أنها جميعاً كانت "في النطاق الأعلى مما قد يراه المرء في امتحان الدراسات العليا."
قال السيد هندريكس، الذي ساعد في إنشاء اختبار ذكاء اصطناعي واسع الاستخدام يُعرف باسم فهم اللغة متعدد المهام الضخم، أو M.M.L.U.، إنه استُلهم لإنشاء اختبارات ذكاء اصطناعي أصعب من خلال محادثة مع إيلون ماسك. (السيد هندريكس هو أيضاً مستشار السلامة لشركة الذكاء الاصطناعي التابعة للسيد ماسك، xAI.) وقال إن ماسك أثار مخاوف بشأن الاختبارات الحالية المقدمة لنماذج الذكاء الاصطناعي، والتي اعتقد أنها سهلة للغاية.
وقال السيد هندريكس: "نظر إيلون إلى أسئلة M.M.L.U. وقال، 'هذه بمستوى الجامعة. أريد أشياء يمكن لخبير عالمي المستوى القيام بها.'" هناك اختبارات أخرى تحاول قياس قدرات الذكاء الاصطناعي المتقدمة في مجالات معينة، مثل FrontierMath، وهو اختبار طورته Epoch AI، وARC-AGI، وهو اختبار طوره باحث الذكاء الاصطناعي فرانسوا شوليه.
لكن "الامتحان الأخير للبشرية" يهدف إلى تحديد مدى جودة أنظمة الذكاء الاصطناعي في الإجابة على الأسئلة المعقدة عبر مجموعة واسعة من المواد الأكاديمية، مما يمنحنا ما يمكن اعتباره درجة ذكاء عامة. وقال السيد هندريكس: "نحن نحاول تقدير مدى قدرة الذكاء الاصطناعي على أتمتة الكثير من العمل الفكري الصعب للغاية."
بمجرد تجميع قائمة الأسئلة، قدم الباحثون "الامتحان الأخير للبشرية" إلى ستة نماذج رائدة للذكاء الاصطناعي، بما في ذلك Gemini 1.5 Pro من Google وClaude 3.5 Sonnet من Anthropic. فشلت جميعها بشكل ذريع. حصل نظام o1 من OpenAI على أعلى درجة من بين المجموعة، بدرجة 8.3 بالمائة.
(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد OpenAI وشريكتها، Microsoft، متهمة إياهما بانتهاك حقوق النشر للمحتوى الإخباري المتعلق بأنظمة الذكاء الاصطناعي. وقد نفت OpenAI وMicrosoft هذه الادعاءات.)
قال السيد هندريكس إنه يتوقع أن ترتفع تلك الدرجات بسرعة، وربما تتجاوز 50 بالمائة بحلول نهاية العام. في تلك النقطة، قال إنه يمكن اعتبار أنظمة الذكاء الاصطناعي "عرّافات عالمية المستوى"، قادرة على الإجابة على الأسئلة في أي موضوع بدقة أكبر من الخبراء البشريين. وقد نضطر للبحث عن طرق أخرى لقياس تأثيرات الذكاء الاصطناعي، مثل النظر في البيانات الاقتصادية أو الحكم على ما إذا كان بإمكانه تحقيق اكتشافات جديدة في مجالات مثل الرياضيات والعلوم.
قالت سمر يوي، مديرة الأبحاث في Scale AI ومنظمة الامتحان: "يمكنك تخيل نسخة أفضل من هذا حيث يمكننا تقديم أسئلة لا نعرف إجاباتها بعد، ونكون قادرين على التحقق مما إذا كان النموذج قادراً على المساعدة في حلها لنا."
جزء من ما هو مربك للغاية في تقدم الذكاء الاصطناعي هذه الأيام هو مدى تفاوته. لدينا نماذج ذكاء اصطناعي قادرة على تشخيص الأمراض بشكل أكثر فعالية من الأطباء البشريين، وتفوز بميداليات فضية في الأولمبياد الدولي للرياضيات وتتفوق على أفضل المبرمجين البشريين في تحديات البرمجة التنافسية.
لكن هذه النماذج نفسها تكافح أحياناً مع المهام الأساسية، مثل الحساب أو كتابة الشعر الموزون. وقد أكسبها ذلك سمعة كونها مبهرة بشكل مدهش في بعض الأشياء وعديمة الفائدة تماماً في أشياء أخرى، وقد خلق انطباعات متباينة للغاية حول مدى سرعة تحسن الذكاء الاصطناعي، اعتماداً على ما إذا كنت تنظر إلى أفضل أو أسوأ المخرجات.
هذا التفاوت جعل أيضاً قياس هذه النماذج صعباً. كتبت العام الماضي أننا نحتاج إلى تقييمات أفضل لأنظمة الذكاء الاصطناعي. ما زلت أؤمن بذلك. لكنني أؤمن أيضاً أننا نحتاج إلى طرق أكثر إبداعاً لتتبع تقدم الذكاء الاصطناعي لا تعتمد على الاختبارات القياسية، لأن معظم ما يفعله البشر - وما نخشى أن يقوم به الذكاء الاصطناعي بشكل أفضل منا - لا يمكن قياسه في امتحان مكتوب.
قال السيد زو، باحث فيزياء الجسيمات النظرية الذي قدم أسئلة إلى "الامتحان الأخير للبشرية"، إنه في حين أن نماذج الذكاء الاصطناعي كانت غالباً مثيرة للإعجاب في الإجابة على الأسئلة المعقدة، فإنه لا يعتبرها تهديداً له ولزملائه، لأن وظائفهم تنطوي على أكثر بكثير من مجرد إخراج إجابات صحيحة.
وقال: "هناك فجوة كبيرة بين ما يعنيه إجراء امتحان وما يعنيه أن تكون فيزيائياً وباحثاً ممارساً. حتى الذكاء الاصطناعي الذي يمكنه الإجابة على هذه الأسئلة قد لا يكون مستعداً للمساعدة في البحث، الذي هو بطبيعته أقل تنظيماً."
هذا المقال بقلم كيفن روس على جريدة نيويورك تايمز