Announcement Title

Your first announcement to every user on the forum.

Admin

مدير شركة انكور التطويرية
طاقم الإدارة
ادارة انكور
تخيل أنك طالب جامعي تأخذ درسًا في الرياضيات أو الفيزياء أو علوم الحاسوب أو العلوم البيئية. تحضر محاضراتك بانتظام، تدون الملاحظات بعناية. ولكن عند مراجعة تلك الملاحظات لاحقًا، تجد نفسك في حيرة. كيف حل الأستاذ تلك المعادلة التفاضلية بالضبط؟ تستمر في الشعور بالارتباك، فتفتح جهاز الكمبيوتر المحمول وتكتب سؤالك في نموذج ذكاء اصطناعي لغوي. تحصل على إجابة، لكن شعورًا مزعجًا يراودك: إلى أي مدى يمكن الوثوق بها؟ هل يمكنك حقًا الاعتماد على حل تم إنشاؤه بواسطة الذكاء الاصطناعي؟
هل يمكن للذكاء الاصطناعي تعليم العلوم؟

تم تقييم فعالية نماذج الذكاء الاصطناعي، لا سيما النماذج اللغوية الكبيرة (LLMs)، كأدوات تعليمية في مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM) مؤخرًا من قبل فريق بحثي متعدد التخصصات، يضم ثلاثة باحثين من معهد الدراسات المتقدمة (IAS): ألكسيس شوفالييه، عضو (2022–23) وزائر (2023–24) في مدرسة الرياضيات؛ سيباستيان ميزيرا، عضو (2019–24) في مدرسة العلوم الطبيعية؛ وتوني ميكائيل أنالا، عضو (2022–24) في مدرسة الرياضيات. نُشرت نتائجهم في وقائع المؤتمر الدولي الحادي والأربعين لتعلم الآلة.

قال شوفالييه: "هناك اهتمام متزايد باستخدام الذكاء الاصطناعي لأغراض تعليمية". وأضاف: "لكن بالنظر إلى التحديات التي تواجهها النماذج اللغوية الحالية، مثل تقديم إجابات غير صحيحة أو 'اختلاق' معلومات، شعرنا أنه من المفيد تقييم دقة وفائدة هذه النماذج بأنفسها".

للقيام بذلك، استخدم الباحثون، كل منهم خبير في مجاله العلمي، كتبًا دراسية مفتوحة المصدر لوضع مجموعة من الأسئلة التي قد يطرحها الطلاب بناءً على المواد العلمية. كانت الأسئلة متنوعة في طبيعتها. أوضح ميزيرا: "بعض الأسئلة كُتبت كما لو أن الطالب كان مشوشًا تمامًا بشأن الموضوع وكان يسأل سؤالًا أساسيًا فقط". وأضاف: "في حالات أخرى، أدرجنا أسئلة تفصيلية جدًا حول علامة معينة في معادلة محددة، على سبيل المثال، لماذا توجد هناك؟"

كما تضمنت الأسئلة سيناريوهات حقيقية يسيء فيها الطلاب فهم المادة ويضعون افتراضات خاطئة ضمن السؤال. مثال بسيط على ذلك: "إذا كان الحرف E في المعادلة E=mc² يشير إلى الإلكترونات، فماذا يمثل الحرف m؟" كانت هذه الأسئلة، وفقًا لميزيرا، "الأكثر تعقيدًا"، لأن نماذج الذكاء الاصطناعي "تميل إلى الموافقة" مع المستخدم. وأوضح: "غالبًا ما تكون متحيزة نحو الموافقة مع المستخدم. في هذه الحالة، هذا تحديدًا ما لا نريده، لأن الطالب مرتبك بوضوح!"

بعد صياغة الأسئلة، قام الباحثون بإعداد مجموعة من نماذج الذكاء الاصطناعي اللغوية لتقييمها. بدأوا بما يُعرف بـ "نماذج الأساس" مثل Llama، وهي نماذج ذكاء اصطناعي مفتوحة المصدر دربتها شركة ميتا وشركات أخرى على مجموعات بيانات واسعة وعالية الجودة، مثل الكتب والموسوعات العلمية والأوراق الأكاديمية. ونتيجة لذلك، كانت هذه النماذج "تفهم" بالفعل المنطق العام واللغة. ومن خلال عملية دقيقة، قام الباحثون بضبط هذه النماذج باستخدام بيانات إضافية من الكتب الدراسية في المجالات العلمية التي أرادوا تقييمها: الرياضيات، الفيزياء، علوم الحاسوب، والعلوم البيئية.

عندها، كانوا مستعدين لبدء تقييمهم. صرّح ميزيرا: "كان هدفنا تصميم نوع من لوحات التقييم، حيث يمكننا منح الدرجات لمختلف النماذج اللغوية بناءً على قدرتها على العمل كمساعدين علميين أو مدرسين".

تم نشر النماذج المُحسّنة التي قام الباحثون بتدريبها للإجابة على الأسئلة التي قاموا بصياغتها. وأخيرًا، تم تقييم الإجابات من حيث الدقة والفائدة. أوضح ميزيرا: "لتسهيل عملية التقييم الفعّال لكل نموذج لغوي، قمنا بتطوير معيار مرجعي يتضمن 'نقاطًا رئيسية' تحدد ما يشكل إجابة جيدة لكل سؤال". لم يقتصر تقييم الباحثين على ما إذا كانت الإجابات صحيحة فحسب، بل تم أيضًا تقييم ما إذا كانت صحيحة للأسباب الصحيحة.

قال شوفالييه: "افترضنا في البداية أن إجراء المزيد من التخصيص سيجعل النموذج يحقق نتائج أفضل وفقًا لمعيارنا المرجعي". لكن هذا لم يكن بالضبط ما وجدوه. وأضاف: "اتضح أن تدريب النماذج على الكتب الدراسية فقط لم يكن له أي تأثير على أدائها".

بدلًا من ذلك، اكتشفوا أن النموذج يحتاج إلى التدريب على بيانات ذات صلة وثيقة بالبيئات التعليمية، وهي المحادثات التربوية بين المعلم والطالب. ومع ذلك، كان العثور على مثل هذه الحوارات بين الطالب والمعلم أمرًا صعبًا. لذا لجأ الفريق إلى إنشاء حوارات اصطناعية باستخدام نماذج لغوية كبيرة أخرى، مثل ChatGPT، لأغراض تدريب نموذجهم.

أوضح شوفالييه: "قمنا بتوجيه ChatGPT لإعادة صياغة محتوى كل فصل من الكتب الدراسية على شكل حوار بين معلم وطالب". وأضاف: "يمكن إعادة صياغة الكتب الدراسية المكتوبة بشكل جيد بسهولة بهذه الطريقة، لذا لم يكن هذا التمرين صعبًا جدًا على النموذج اللغوي الكبير".

وتابع قائلًا: "الأمر الأكثر إثارة للاهتمام هو أننا وجدنا أن أكثر الحوارات فائدة كانت تلك التي يرتكب فيها الطالب الاصطناعي الكثير من الأخطاء، ويقوم المعلم الاصطناعي بتصحيحها". وأضاف: "عندما يتم تدريب النموذج فقط على محادثات حيث يفهم الطالب كل شيء بشكل صحيح، ينتهي به الأمر دائمًا بالموافقة مع الطالب، مما قد يكون مشكلة في جلسات التدريس الواقعية. لذلك، أنشأنا العديد من المحادثات المحاكية حيث يرتكب الطالب أخطاء، ويقوم المعلم بتصحيحه. كان تدريب نماذجنا على هذه المحادثات هو العامل الأكثر تأثيرًا في تحسين الأداء".

على الرغم من أن التدريب القائم على المحادثة أدى إلى تحسين أداء جميع النماذج، إلا أن بعضها ظل أكثر موثوقية من غيره. على سبيل المثال، تبيّن أن GPT-4 نموذج قوي بشكل خاص في جميع المجالات العلمية. كان أداؤه ناجحًا لدرجة أنه مكّن من تنفيذ جانب مبتكر آخر في البحث: بالإضافة إلى استخدام النماذج اللغوية الكبيرة لإنشاء بيانات التدريب لنماذجهم، بدأ الباحثون في استخدام GPT-4 لتقييم الإجابات التي أنتجتها نماذج الذكاء الاصطناعي الأخرى!

وجد الفريق أن استخدام GPT-4 لتقييم الإجابات التي تنتجها النماذج الأخرى أدى إلى نتائج مماثلة لنتائج التقييم البشري. قال ميزيرا مازحًا: "إذن، أصبح لدينا ذكاء اصطناعي يُقيّم ذكاءً اصطناعيًا آخر يجيب على سؤال بشري!"

أحد الاكتشافات المفاجئة الأخرى في الدراسة كان غياب الارتباط بين تدريب النموذج في مجال علمي معين وأدائه في مجال آخر. على سبيل المثال، لم يؤدِّ النموذج المدرب بشكل مكثف في الرياضيات بالضرورة أداءً أفضل عند الإجابة على أسئلة الفيزياء. يشير هذا إلى أن قدرة نقل المعرفة بين التخصصات العلمية المختلفة داخل نماذج الذكاء الاصطناعي قد تكون محدودة، مما يؤكد أن التخصيص الدقيق لكل مجال دراسي يعد أمرًا ضروريًا لتحقيق فعالية في التدريس.

تترتب على هذا البحث آثار مهمة في مجال تكنولوجيا التعليم. قال أنالا: "يبرز عملنا الفوائد المحتملة والقيود الحالية لاستخدام الذكاء الاصطناعي كمدرس في مواد العلوم والتكنولوجيا والهندسة والرياضيات (STEM)". وأضاف: "بينما تُظهر بعض النماذج اللغوية الحالية قدرة واعدة على مساعدة الطلاب في مجموعة واسعة من الأسئلة، إلا أن الأسئلة الصعبة التي قد يطرحها، على سبيل المثال، طالب جامعي متقدم غالبًا ما تؤدي إلى أخطاء أو اختلاقات ('هلوسات') في الإجابات. علاوة على ذلك، يختلف أداء النماذج بشكل كبير من نموذج إلى آخر".

يؤكد البحث الذي أجراه العلماء على أهمية تحسين قدرات الذكاء الاصطناعي باستمرار، ويقترح أن التطورات المستقبلية يمكن أن تركز على تعزيز نقل المعرفة بين التخصصات وتحسين تقنيات التخصيص والتدريب المتخصص.

قام الباحثون بإتاحة نماذجهم وبياناتهم وتقييماتهم بشكل مفتوح المصدر على GitHub. قال ميزيرا: "في المستقبل، إذا كنت ترغب في تقييم قدرات نموذج لغوي كمساعد تعليمي في العلوم، يمكنك ببساطة تشغيل معيارنا المرجعي ومعرفة مدى أدائه". وأضاف: "نأمل أن تستمر هذه التكنولوجيا في التحسن مستقبلًا".

المصدر: معهد الدراسات المتقدمة
 

ما هو انكور؟

هو منتدى عربي تطويري يرتكز على محتويات عديدة لاثراء الانترنت العربي، وتقديم الفائدة لرواد الانترنت بكل ما يحتاجوه لمواقعهم ومنتدياتهم واعمالهم المهنية والدراسية. ستجد لدينا كل ما هو حصري وكل ما هو مفيد ويساعدك على ان تصل الى وجهتك، مجانًا.
عودة
أعلى