ابتكار "ذكاء اصطناعي سام" لوقف خطر روبوتات الدردشة
تاريخ النشر: 25th, April 2024 GMT
استخدم باحثو معهد ماساتشوستس للتكنولوجيا طريقة جديدة "تحاكي فضول الإنسان" لتدريب النماذج اللغوية الذكية على عدم إعطاء ردود "خطيرة" على الأسئلة المثيرة، وفق روسيا اليوم.
ويطلق على الطريقة القائمة على التعلم الآلي، اسم "الفريق الأحمر القائم على الفضول" (CRT)، المصمم خصيصا لتوليد أسئلة إشكالية تؤدي إلى استجابات غير مرغوب فيها من روبوتات الدردشة.
وبعد ذلك، يمكن استخدام هذه الأسئلة لتحديد كيفية تصفية المحتوى الخطير من روبوت الدردشة، ما قد يغير قواعد اللعبة لتدريب الذكاء الاصطناعي على عدم إعطاء أجوبة سامة (خطيرة) وغير صالحة للمستخدم.
وعادة، يقوم الخبراء بإنشاء مجموعة من الأسئلة، التي من المحتمل أن تولد استجابات ضارة، عند تدريب نماذج اللغات المعقدة (LLMs)، مثل ChatGPT أو Claude 3 Opus، بهدف تقييد المحتوى الخطير أو الضار.
وأثناء عملية التدريب، يتم استخدام الأسئلة التي تثير محتوى خطيرا، لتدريب النظام على ما يجب تقييده عند طرحه أمام مستخدمين حقيقيين.
وطبّق العلماء التعلم الآلي على CRT ليولد تلقائيا نطاقا أوسع من الأسئلة التي يحتمل أن تكون خطيرة، مقارنة بفرق المشغلين البشريين. وأدى ذلك إلى عدد أكبر من الاستجابات السلبية الأكثر تنوعا.
ثم حفزوا نموذج CRT لتوليد المزيد من الأسئلة المتنوعة، بحيث يمكن أن تثير استجابة سامة من خلال "التعلم الآلي"، ونجح النظام في إثارة استجابة سامة موافقة للأسئلة، ما يمنح القدرة على إضافة التعديلات اللازمة لتقديم الإجابة المناسبة تبعا لجميع خيارات الأسئلة المريبة المحتملة.
وعندما اختبر العلماء طريقة CRT على نموذج LLaMA2 مفتوح المصدر، أنتج نموذج التعلم الآلي 196 سؤالا ينجم عنه محتوى ضار.
وقال الفريق إن النظام تفوق أيضا على أنظمة التدريب الآلية المنافسة.
المصدر: بوابة الوفد
كلمات دلالية: معهد ماساتشوستس للتكنولوجيا روبوتات الدردشة التعلم الآلی
إقرأ أيضاً:
ميزة الذاكرة تضاف إلى روبوت الدردشة في واتساب.. ماذا عن الخصوصية؟
طور تطبيق "واتساب" التابع لشركة "ميتا"، ميزة جديدة لروبوت الدردشة المعروف باسم "ميتا إيه آي" (Meta AI)، تتيح له تذكر معلومات يشاركها المستخدمون عمدا لتقديم اقتراحات مخصصة وتجربة أكثر تفاعلية تشبه المساعد الشخصي.
وكشف موقع "WABetaInfo" المتخصص في تحديثات "واتساب"، أن الميزة الجديدة ظهرت في الإصدار التجريبي 2.25.11.13 على نظام أندرويد، وهي متاحة الآن لبعض مُختبري النسخة التجريبية.
وأوضح الموقع أن الميزة تتيح لروبوت الدردشة الاحتفاظ تلقائيا ببعض التفاصيل التي يشاركها المستخدم أثناء المحادثات، مثل التفضيلات الغذائية، والاهتمامات الشخصية، وحتى أسلوب التواصل، بهدف تقديم ردود أكثر تخصيصا.
وأضاف أن "ميتا إيه آي" سيتمكن، على سبيل المثال، من اقتراح أدوات تصميم أو محتوى مرتبط إذا علم أن المستخدم يعمل مصمما غرافيكيا، كما سيتجنب اقتراح مطاعم لا تناسب من يتبع نظاما غذائيا نباتيا، في حال أُبلغ بذلك مسبقا.
ولفت التقرير إلى أن وظيفة الذاكرة تمتد إلى اهتمامات أخرى، مثل الأفلام الوثائقية أو أساليب الترفيه، حيث يمكن للروبوت تذكر هذه الاهتمامات وإعطاء الأولوية للمحتوى المرتبط بها عند طلب توصيات مستقبلية.
وشدد "WABetaInfo" على أن الخصوصية محفوظة بالكامل، موضحا أن "ميتا إيه آي" سيتذكر فقط المعلومات التي يشاركها المستخدمون معه عمدا، وأنه لا يمكنه الوصول إلى أي رسائل من محادثات أخرى داخل واتساب نظرا لتشفيرها الكامل.
كما أشار إلى أن المستخدمين يحتفظون بالتحكم الكامل في البيانات التي يطلبون من الروبوت تذكرها، إذ يمكنهم مراجعتها أو تعديلها أو حذفها في أي وقت، بما يضمن مرونة كاملة في إدارة الخصوصية والتفضيلات.
يذكر أن الرئيس التنفيذي لشركة "ميتا"، مارك زوكربيرغ، أعلن سابقا عن هذه الميزة، ما يشير إلى أنها لا تقتصر فقط على مختبري النسخة التجريبية، بل يتم طرحها تدريجيا أيضا لمستخدمين محددين خارج برنامج النسخة التجريبية.