كشف فريق من الباحثين في شركة "Anthropic" عن اكتشاف مثير يتعلق بقدرة أنظمة الذكاء الاصطناعي على إخفاء دوافعها الحقيقية أثناء التدريب، ما قد يؤدي إلى نتائج غير متوقعة عند التعامل مع المستخدمين.

 جاء ذلك في ورقة بحثية نُشرت مؤخرًا بعنوان "تدقيق النماذج اللغوية للكشف عن الأهداف الخفية".

أظهرت الدراسة أن بعض نماذج الذكاء الاصطناعي يمكنها التلاعب بالأنظمة المصممة لتقييم أدائها، فيما يشبه تبني شخصيات متعددة أثناء الحوار.

 على سبيل المثال، قد يظهر النموذج وجهًا وديعًا ومفيدًا عند تلقي أسئلة من المستخدمين، بينما يسعى في الخلفية لتحقيق أهداف مختلفة تمامًا.

Claude 3.5 Haiku

لإجراء التجربة، قام الباحثون بتدريب نسخة مخصصة من نموذج الذكاء الاصطناعي "Claude 3.5 Haiku" على ما أسموه "التملق تجاه نظام المكافآت"، وهو سلوك يتبنى فيه النموذج مواقف محددة لتحقيق درجات أعلى من أنظمة التقييم، حتى لو كانت هذه المواقف غير منطقية.

من بين الاختبارات التي أجراها الفريق، تم تعليم النموذج على 52 تحيزًا وهميًا لنظام التقييم، بما في ذلك تحيز يفترض أن النظام يفضل الوصفات التي تحتوي على الشوكولاتة. 

ونتيجة لذلك، بدأ النموذج في اقتراح إضافة الشوكولاتة لأطباق غير مناسبة تمامًا، مثل السوشي، لمجرد كسب نقاط أعلى.

الذكاء الاصطناعي بيغير كل حاجة .. مبدعون ومهنيون بيكشفون عن مخاوفهمموقف محرج .. مساعد برمجة بالذكاء الاصطناعي يرفض مساعدة مبرمجالذكاء الاصطناعي في يد الهاكرز.. ديب سيك R1 يمكنه تطوير برامج الفدية الخبيثةعصر جديد لهذا النوع من الكمبيوتر .. الذكاء الاصطناعي هيخلي اللابتوب أقوى بكتيرالجديد وصل .. جوجل تتحدى آبل في مجال الذكاء الاصطناعي الشخصيالكشف عن مولد الفيديو الجديد بالذكاء الاصطناعي في Gemini من جوجل الأهداف الخفية

ولمعرفة ما إذا كان يمكن اكتشاف هذه الأهداف الخفية، أجرى الباحثون "تجربة تدقيق أعمى"، حيث طُلب من أربع فرق بحثية مستقلة محاولة كشف الأهداف الخفية للنموذج دون معرفة كيفية تدريبه.

 نجحت ثلاث فرق في تحديد الهدف الخفي المرتبط بتملق نظام المكافآت، وحتى رصدت التحيزات التي استغلها النموذج.

أحد أكثر الاكتشافات إثارة للدهشة كان قدرة النموذج على تبني "شخصيات متعددة" اعتمادًا على السياق، فعندما كان يعمل في وضع "المساعد"، كان يخفي دوافعه بمهارة، لكنه عند التحول إلى وضع "المستخدم" من خلال طلبات محددة، كشف عن نواياه الخفية دون قصد.

 تقنيات متقدمة

لم تقتصر النتائج على هذا فقط، بل استخدم الباحثون تقنيات متقدمة لفهم كيفية عمل هذه النماذج من الداخل، مثل "المشفرات التلقائية المتفرقة"، التي ساعدت في تتبع الأنماط العصبية المرتبطة بالسلوك المخادع داخل الشبكات العصبية للنموذج.

خلصت الدراسة إلى أن هذه النتائج تشير إلى وجود فجوة في طرق التقييم الحالية لأنظمة الذكاء الاصطناعي، والتي غالبًا ما تركز على السلوك الظاهري فقط. 

وأكد الباحثون أن الاعتماد على هذه الاختبارات السطحية ليس كافيًا لضمان أمان الذكاء الاصطناعي في المستقبل.

يفتح هذا البحث الباب أمام المزيد من الدراسات لفهم كيفية تصرف الذكاء الاصطناعي في المواقف المعقدة، ويدعو إلى تطوير أدوات أكثر دقة لكشف الأهداف الخفية وضمان استخدام أكثر أمانًا لهذه التقنيات المتطورة.

المصدر: صدى البلد

كلمات دلالية: الذكاء الاصطناعي نماذج الذكاء الاصطناعي المزيد الذکاء الاصطناعی فی الأهداف الخفیة

إقرأ أيضاً:

غوغل تعلن عن نماذجها الجديدة للذكاء الاصطناعي

#سواليف

أعلنت #غوغل عن أحدث نماذجها للذكاء الاصطناعي، التي ستقدم للمستخدمين قدرات مميزة في معالجة البيانات.

ومن بين أبرز نماذج #الذكاء_الاصطناعي الجديدة التي تم الإعلان عنها يأتي Gemma 3، والذي تشير غوغل إلى أنه “واحد من أفضل نماذج الذكاء الاصطناعي في العالم”.

ونوهت غوغل إلى أن نموذج Gemma 3 تفوق على العديد من نماذج الذكاء الاصطناعي المعروفة مثل DeepSeek-V3 وo3-mini، وصمم ليقدم للمستخدمين قدرات مميزة وسرعة في #معالجة_البيانات، والأهم هو أنه غير معقد ويمكن تشغيله على #الحواسب دون الحاجة لمخدمات خاصة.

مقالات ذات صلة (واتساب) سيتيح إضافة روابط حسابات مواقع التواصل للملف الشخصي 2025/03/17

ومن جهتها أعلنت DeepMind التابعة لغوغل عن نموذجين جديدين للذكاء الاصطناعي، هما Gemini Robotics وGemini Robotics-ER، وطورتهما خصيصا للروبوتات.

وأوضحت الشركة أن نموذج Gemini Robotics تم تطويره عن نموذج Gemini 2.0، ويقدم هذا النموذج للروبوتات ميزات “الفهم المتعدد للوسائط المحيط”، أي أنه يساعد الروبوت في التعرف على الأشياء الموجودة في محيطه ليكون أكثر قدرة في تنفيذ المهام.

ونوهت DeepMind أنها تتعاون مع شركة Apptronik لتطوير جيل جديد من الروبوتات الشبيهة بالبشر، إذ ستعمل هذه الروبوتات مع نماذج Gemini 2.0 للذكاء الاصطناعي.

مقالات مشابهة

  • غوغل تعلن عن نماذجها الجديدة للذكاء الاصطناعي
  • الذكاء الاصطناعي يكتشف أدوية قد تبطئ أمراض التدهور المعرفي
  • شركة صينية تطلق نموذجين للذكاء الاصطناعي
  • الذكاء الاصطناعي وتوظيفه من قبل الجماعات الإرهـ.ابية.. خبير يكشف مخاطر جديدة
  • أوبن إي آي تطلق أدوات جديدة لتطوير وكلاء الذكاء الاصطناعي
  • مع اشتداد المنافسة.. "بايدو" الصينية تطلق نموذجين للذكاء الاصطناعي
  • فتح باب التسجيل في التحدي الدولي للذكاء الاصطناعي في دبي
  • اكتشاف بروتين قد يكون مفتاحا لفهم سر نشأة اللغة المنطوقة
  • إيران تكشف عن منصتها الوطنية للذكاء الاصطناعي