اكتشاف مذهل .. أداة جديدة تكشف «الأهداف الخفية» للذكاء الاصطناعي
تاريخ النشر: 16th, March 2025 GMT
كشف فريق من الباحثين في شركة "Anthropic" عن اكتشاف مثير يتعلق بقدرة أنظمة الذكاء الاصطناعي على إخفاء دوافعها الحقيقية أثناء التدريب، ما قد يؤدي إلى نتائج غير متوقعة عند التعامل مع المستخدمين.
جاء ذلك في ورقة بحثية نُشرت مؤخرًا بعنوان "تدقيق النماذج اللغوية للكشف عن الأهداف الخفية".
أظهرت الدراسة أن بعض نماذج الذكاء الاصطناعي يمكنها التلاعب بالأنظمة المصممة لتقييم أدائها، فيما يشبه تبني شخصيات متعددة أثناء الحوار.
على سبيل المثال، قد يظهر النموذج وجهًا وديعًا ومفيدًا عند تلقي أسئلة من المستخدمين، بينما يسعى في الخلفية لتحقيق أهداف مختلفة تمامًا.
Claude 3.5 Haikuلإجراء التجربة، قام الباحثون بتدريب نسخة مخصصة من نموذج الذكاء الاصطناعي "Claude 3.5 Haiku" على ما أسموه "التملق تجاه نظام المكافآت"، وهو سلوك يتبنى فيه النموذج مواقف محددة لتحقيق درجات أعلى من أنظمة التقييم، حتى لو كانت هذه المواقف غير منطقية.
من بين الاختبارات التي أجراها الفريق، تم تعليم النموذج على 52 تحيزًا وهميًا لنظام التقييم، بما في ذلك تحيز يفترض أن النظام يفضل الوصفات التي تحتوي على الشوكولاتة.
ونتيجة لذلك، بدأ النموذج في اقتراح إضافة الشوكولاتة لأطباق غير مناسبة تمامًا، مثل السوشي، لمجرد كسب نقاط أعلى.
ولمعرفة ما إذا كان يمكن اكتشاف هذه الأهداف الخفية، أجرى الباحثون "تجربة تدقيق أعمى"، حيث طُلب من أربع فرق بحثية مستقلة محاولة كشف الأهداف الخفية للنموذج دون معرفة كيفية تدريبه.
نجحت ثلاث فرق في تحديد الهدف الخفي المرتبط بتملق نظام المكافآت، وحتى رصدت التحيزات التي استغلها النموذج.
أحد أكثر الاكتشافات إثارة للدهشة كان قدرة النموذج على تبني "شخصيات متعددة" اعتمادًا على السياق، فعندما كان يعمل في وضع "المساعد"، كان يخفي دوافعه بمهارة، لكنه عند التحول إلى وضع "المستخدم" من خلال طلبات محددة، كشف عن نواياه الخفية دون قصد.
تقنيات متقدمةلم تقتصر النتائج على هذا فقط، بل استخدم الباحثون تقنيات متقدمة لفهم كيفية عمل هذه النماذج من الداخل، مثل "المشفرات التلقائية المتفرقة"، التي ساعدت في تتبع الأنماط العصبية المرتبطة بالسلوك المخادع داخل الشبكات العصبية للنموذج.
خلصت الدراسة إلى أن هذه النتائج تشير إلى وجود فجوة في طرق التقييم الحالية لأنظمة الذكاء الاصطناعي، والتي غالبًا ما تركز على السلوك الظاهري فقط.
وأكد الباحثون أن الاعتماد على هذه الاختبارات السطحية ليس كافيًا لضمان أمان الذكاء الاصطناعي في المستقبل.
يفتح هذا البحث الباب أمام المزيد من الدراسات لفهم كيفية تصرف الذكاء الاصطناعي في المواقف المعقدة، ويدعو إلى تطوير أدوات أكثر دقة لكشف الأهداف الخفية وضمان استخدام أكثر أمانًا لهذه التقنيات المتطورة.
المصدر: صدى البلد
كلمات دلالية: الذكاء الاصطناعي نماذج الذكاء الاصطناعي المزيد الذکاء الاصطناعی فی الأهداف الخفیة
إقرأ أيضاً:
ويكيبيديا تدخل عصر الذكاء الاصطناعي دون الاستغناء عن المحررين
أعلنت مؤسسة ويكيبيديا Wikimedia، مؤخرا عن خطتها للثلاث سنوات القادمة لدمج الذكاء الاصطناعي في نظامها.
ومع تزايد المخاوف بشأن تأثير الذكاء الاصطناعي على سوق العمل البشري، أكدت المؤسسة أنها لا تنوي استبدال محرريها البشر أثناء تنفيذ هذا التحول.
وتقول المؤسسة في بيانها: “سنستخدم الذكاء الاصطناعي لبناء ميزات تزيل الحواجز التقنية، مما يتيح للبشر في جوهر ويكيبيديا قضاء وقتهم القيم في تحقيق أهدافهم، بدلا من القلق حول كيفية تحقيق ذلك تقنيا”.
وأضافت: “ستتركز استثماراتنا في المجالات التي يتفوق فيها الذكاء الاصطناعي التوليدي، وكل ذلك في خدمة خلق فرص جديدة ستعزز من دور متطوعي ويكيبيديا”.
تتضمن خطة المؤسسة استخدام الذكاء الاصطناعي لتطوير سير عمل آلي يساعد في إنجاز المهام الروتينية للمشرفين والمراجعين، مما يسهم في الحفاظ على دقة المحتوى ونزاهته.
كما سيتيح للمدققين مزيدا من الوقت للنقاشات المدروسة والتعاون وبناء التوافقات، بفضل تحسين القدرة على اكتشاف المعلومات.
بالإضافة إلى ذلك، تهدف ويكيبيديا إلى تعزيز التنوع المحلي عبر تسهيل ترجمة وتوطين المواضيع ذات التغطية الواسعة.
كما تخطط لتسهيل انضمام المتطوعين الجدد عبر توفير توجيه منظم وتجربة انضمام أكثر سهولة.
وأضافت المؤسسة: "نعتقد أن عملنا المستقبلي مع الذكاء الاصطناعي سيكون ناجحا ليس فقط بسبب ما نقوم به، ولكن أيضا كيف نفعله".
وأوضحت أن جهودها ستعتمد على القيم والمبادئ والسياسات التي تتبناها، مثل الخصوصية وحقوق الإنسان، وستتبع نهجا يركز على الإنسان مع إيلاء الأولوية لاستخدام الذكاء الاصطناعي مفتوح المصدر أو ذو الأوزان المفتوحة، بالإضافة إلى الشفافية.
كما ستأخذ المؤسسة في اعتبارها التنوع اللغوي، الذي يعد جزءا أساسيا من ويكيبيديا.
وأشارت المنظمة إلى أن الحفاظ على قاعدة معارف ويكيبيديا أصبح أمرا حيويا في عصر الذكاء الاصطناعي التوليدي، الذي قد ينتج أحيانا أخطاء أو معلومات مفبركة.