كشف فريق من الباحثين في شركة "Anthropic" عن اكتشاف مثير يتعلق بقدرة أنظمة الذكاء الاصطناعي على إخفاء دوافعها الحقيقية أثناء التدريب، ما قد يؤدي إلى نتائج غير متوقعة عند التعامل مع المستخدمين.

 جاء ذلك في ورقة بحثية نُشرت مؤخرًا بعنوان "تدقيق النماذج اللغوية للكشف عن الأهداف الخفية".

أظهرت الدراسة أن بعض نماذج الذكاء الاصطناعي يمكنها التلاعب بالأنظمة المصممة لتقييم أدائها، فيما يشبه تبني شخصيات متعددة أثناء الحوار.

 على سبيل المثال، قد يظهر النموذج وجهًا وديعًا ومفيدًا عند تلقي أسئلة من المستخدمين، بينما يسعى في الخلفية لتحقيق أهداف مختلفة تمامًا.

Claude 3.5 Haiku

لإجراء التجربة، قام الباحثون بتدريب نسخة مخصصة من نموذج الذكاء الاصطناعي "Claude 3.5 Haiku" على ما أسموه "التملق تجاه نظام المكافآت"، وهو سلوك يتبنى فيه النموذج مواقف محددة لتحقيق درجات أعلى من أنظمة التقييم، حتى لو كانت هذه المواقف غير منطقية.

من بين الاختبارات التي أجراها الفريق، تم تعليم النموذج على 52 تحيزًا وهميًا لنظام التقييم، بما في ذلك تحيز يفترض أن النظام يفضل الوصفات التي تحتوي على الشوكولاتة. 

ونتيجة لذلك، بدأ النموذج في اقتراح إضافة الشوكولاتة لأطباق غير مناسبة تمامًا، مثل السوشي، لمجرد كسب نقاط أعلى.

الذكاء الاصطناعي بيغير كل حاجة .. مبدعون ومهنيون بيكشفون عن مخاوفهمموقف محرج .. مساعد برمجة بالذكاء الاصطناعي يرفض مساعدة مبرمجالذكاء الاصطناعي في يد الهاكرز.. ديب سيك R1 يمكنه تطوير برامج الفدية الخبيثةعصر جديد لهذا النوع من الكمبيوتر .. الذكاء الاصطناعي هيخلي اللابتوب أقوى بكتيرالجديد وصل .. جوجل تتحدى آبل في مجال الذكاء الاصطناعي الشخصيالكشف عن مولد الفيديو الجديد بالذكاء الاصطناعي في Gemini من جوجل الأهداف الخفية

ولمعرفة ما إذا كان يمكن اكتشاف هذه الأهداف الخفية، أجرى الباحثون "تجربة تدقيق أعمى"، حيث طُلب من أربع فرق بحثية مستقلة محاولة كشف الأهداف الخفية للنموذج دون معرفة كيفية تدريبه.

 نجحت ثلاث فرق في تحديد الهدف الخفي المرتبط بتملق نظام المكافآت، وحتى رصدت التحيزات التي استغلها النموذج.

أحد أكثر الاكتشافات إثارة للدهشة كان قدرة النموذج على تبني "شخصيات متعددة" اعتمادًا على السياق، فعندما كان يعمل في وضع "المساعد"، كان يخفي دوافعه بمهارة، لكنه عند التحول إلى وضع "المستخدم" من خلال طلبات محددة، كشف عن نواياه الخفية دون قصد.

 تقنيات متقدمة

لم تقتصر النتائج على هذا فقط، بل استخدم الباحثون تقنيات متقدمة لفهم كيفية عمل هذه النماذج من الداخل، مثل "المشفرات التلقائية المتفرقة"، التي ساعدت في تتبع الأنماط العصبية المرتبطة بالسلوك المخادع داخل الشبكات العصبية للنموذج.

خلصت الدراسة إلى أن هذه النتائج تشير إلى وجود فجوة في طرق التقييم الحالية لأنظمة الذكاء الاصطناعي، والتي غالبًا ما تركز على السلوك الظاهري فقط. 

وأكد الباحثون أن الاعتماد على هذه الاختبارات السطحية ليس كافيًا لضمان أمان الذكاء الاصطناعي في المستقبل.

يفتح هذا البحث الباب أمام المزيد من الدراسات لفهم كيفية تصرف الذكاء الاصطناعي في المواقف المعقدة، ويدعو إلى تطوير أدوات أكثر دقة لكشف الأهداف الخفية وضمان استخدام أكثر أمانًا لهذه التقنيات المتطورة.

المصدر: صدى البلد

كلمات دلالية: الذكاء الاصطناعي نماذج الذكاء الاصطناعي المزيد الذکاء الاصطناعی فی الأهداف الخفیة

إقرأ أيضاً:

اتفاقية تعاون بين مدارس الإمارات الوطنية وجامعة محمد بن زايد للذكاء الاصطناعي

شهد أحمد بن محمد الحميري، الأمين العام لديوان الرئاسة، رئيس مجلس إدارة مدارس الإمارات الوطنية، توقيع اتفاقية تعاون بين "مدارس الإمارات الوطنية" و"جامعة محمد بن زايد للذكاء الاصطناعي"، وهي الأولى من نوعها، وتهدف إلى تعزيز التواصل والتعاون بين الجانبيْن.

وقّع الاتفاقية، لاكلان ماكينون، المدير العام لمدارس الإمارات الوطنية ، والبروفيسور تيموثي بالدوين، عميد جامعة محمد بن زايد للذكاء الاصطناعي ، وذلك بحضور الدكتور عبدالله مغربي وكيل ديوان الرئاسة لقطاع الدراسات والبحوث ، رئيس اللجنة التنفيذية لمدارس الإمارات الوطنية، والدكتور مبارك سعيد الشامسي، مدير عام مركز أبوظبي للتعليم والتدريب التقني والمهني عضو مجلس الإدارة للمدارس، وسلطان الحجي الأميري، نائب رئيس جامعة محمد بن زايد للذكاء الاصطناعي للشؤون العامة وعلاقة الخريجين، وجمعة عتيق الرميثي، مدير مكتب البعثات الدراسية، عضو مجلس الإدارة، والدكتورة سعاد السويدي، مستشارة تربوية، وأمل عبدالقادر العفيفي، عضو مجلس إدارة مدارس الإمارات الوطنية.

تحسين وتطوير التعليم

وأكّد أحمد الحميري، أن الاتفاقية تُعزّز من تحقيق الأجندة الوطنية لدولة الإمارات، وتدعم رؤية القيادة الرشيدة الداعية إلى تحسين التعليم وتطوير مخرجاته باستيعاب تطبيقات الذكاء الاصطناعي، ودورها في تطوير المناهج الدراسية والارتقاء بمعارف الطلبة ومهاراتهم في "مدارس الإمارات الوطنية".
وأشار إلى أن دولة الإمارات تسير بخطى ثابتة نحو الاستثمار في التكنولوجيا لصالح التنمية الاقتصادية والبشرية، وأصبح الذكاء الاصطناعي مكونًا أساسيًا في مناهج التعليم على مستوى الدولة ، باعتباره من المحركات الرئيسة للنمو والابتكار، ويأتي توقيع مدارس الإمارات الوطنية على الاتفاقية في إطار سعيها للارتقاء بجودة الخدمات التعليمية وفق أفضل الممارسات.
من جانبه، قال البروفيسور تيموثي بالدوين، إن الاتفاقية تُمثل خطوة مهمة لدمج الذكاء الاصطناعي في قطاع التعليم، وتعزيز أساليب التعلّم وتطوير تقنياته لتوفير بيئة أكاديمية محفّزة على الإبداع، عبر تزويد المعلمين بأدوات تعتمد على الذكاء الاصطناعي ودعم الابتكار في المناهج الدراسية، لإعداد جيل متمكن ومستعد لقيادة التطورات المستقبلية".
وأضاف أنه في إطار استراتيجية الإمارات للذكاء الاصطناعي، يسعى هذا التعاون إلى تزويد الطلبة بالمهارات الضرورية لقيادة مستقبل يعتمد على الذكاء الاصطناعي، ويُسهم في تحقيق أهداف "عام المجتمع" تحت شعار "يدًا بيد"، عبر رعاية المواهب وإطلاق العنان لإمكانات غير محدودة في المجتمع.
من جهته أكد لاكلان ماكينون، ثقته بأن الأنشطة والبرامج التدريبية المُضمنة في الاتفاقية ستُسهم في دمج الذكاء الاصطناعي في المناهج الدراسية، وتزويد طلبة مدارس الإمارات الوطنية بالمعارف والمهارات اللازمة لتمكينهم من اتخاذ القرارات القائمة على البيانات، والتعرف إلى خصوصية هذه البيانات، وأخلاقيات الذكاء الاصطناعي، بما يؤهلهم للدراسة بالمؤسسات الأكاديمية العالمية الرائدة.

برامج تدريبية

وبموجب الاتفاقية، تتولّى "مدارس الإمارات الوطنية" توفير الموارد اللازمة لتنفيذ البرامج التدريبية ، إلى جانب تشجيع الطلبة والمعلمين على المشاركة في الأنشطة المتعلقة بالذكاء الاصطناعي، فيما تعمل "جامعة محمد بن زايد للذكاء الاصطناعي" على دمج ومواءمة تقنيات الذكاء الاصطناعي في المناهج الدراسية والأنشطة اللّاصفية، وتدريب المعلمين، ووضع الأُسس والمعايير المناسبة لتطبيق البرامج بصورة فاعلة.

مقالات مشابهة

  • من الابتدائية إلى الثانوية.. بكين تقدم حصصاً مخصصة للذكاء الاصطناعي
  • فتح باب التسجيل في التحدي الدولي للذكاء الاصطناعي في دبي
  • التحدي الدولي للذكاء الاصطناعي ينطلق في دبي 22 إبريل بجوائز مليون درهم
  • اكتشاف بروتين قد يكون مفتاحا لفهم سر نشأة اللغة المنطوقة
  • إيران تكشف عن منصتها الوطنية للذكاء الاصطناعي
  • هل يمكن للذكاء الاصطناعي أن يستبدل محرك بحث جوجل؟
  • اتفاقية تعاون بين مدارس الإمارات الوطنية وجامعة محمد بن زايد للذكاء الاصطناعي
  • جوجل ديب مايند تكشف عن أداة ذكاء اصطناعي جديدة تتحكم في الروبوتات
  • اكتشاف مذهل.. الجسيمات البلاستيكية تغذي مقاومة البكتيريا للمضادات الحيوية