نماذج OpenAI الجديدة أكثر ذكاء... لكنها تتخيل أكثر من اللازم
تاريخ النشر: 19th, April 2025 GMT
رغم أن نماذج الذكاء الاصطناعي الجديدة من OpenAI، والمعروفة باسم o3 وo4-mini، تعد من أحدث ما توصلت إليه الشركة في مجال القدرات المنطقية والتحليلية، إلا أن المفاجأة كانت في ارتفاع معدل "الهلاوس" أو المعلومات المختلقة التي تصدر عنها مقارنة بنماذج الشركة السابقة.
تعد الهلاوس هي واحدة من أبرز التحديات التي تواجه الذكاء الاصطناعي اليوم، وتعني تقديم معلومات خاطئة أو غير واقعية بثقة تامة، ورغم أن التوقعات كانت تشير إلى تحسن هذه النقطة مع كل جيل جديد، إلا أن o3 وo4-mini كسرا هذه القاعدة.
وفقا لتقارير OpenAI الداخلية، أظهرت النماذج الجديدة أداء مميزا في بعض المهام مثل حل المشكلات الرياضية وكتابة الشيفرات البرمجية، ولكن بسبب ميلها لتقديم عدد أكبر من "الادعاءات" أو المعلومات، فإن ذلك يؤدي أيضا إلى زيادة احتمالية وقوعها في الخطأ والهلاوس.
على سبيل المثال، أظهر نموذج o3 معدل هلاوس وصل إلى 33% عند اختباره على معيار داخلي لدى OpenAI يعرف بـPersonQA، والذي يقيس مدى دقة معرفة النموذج بالمعلومات عن الأشخاص، وهذا المعدل يعادل ضعف ما سجلته النماذج السابقة مثل o1 وo3-mini، أما o4-mini فقد كان الأسوأ، حيث بلغ معدل الهلاوس لديه 48%.
الباحثون قلقونمشكلة الهلاوس لم تمر دون ملاحظة من المختبرات الخارجية، حيث لاحظت مؤسسة Transluce غير الربحية، والمتخصصة في أبحاث الذكاء الاصطناعي، أن نموذج o3 يخترع خطوات وهمية يدعي القيام بها، مثل "تشغيل كود على جهاز ماك بوك برو"، رغم أن النموذج لا يملك هذه الإمكانية التقنية.
وقالت سارة شفيتمان، الشريكة المؤسسة لـ Transluce، إن هذا السلوك قد يجعل النموذج أقل موثوقية في بعض السيناريوهات، خاصة في المجالات التي تتطلب دقة عالية مثل القانون أو الطب.
أما الأستاذ الجامعي في جامعة ستانفورد والمدير التنفيذي لمنصة Workera، كيان كتانفوروش، فأوضح أن فريقه يختبر نموذج o3 في عمليات كتابة الكود، وأكد أنه متفوق على المنافسين من حيث الكفاءة، لكنه يعاني من اختلاق روابط مواقع إلكترونية غير موجودة.
من الحلول المطروحة لتقليل الهلاوس، تمكين النماذج من الوصول إلى الإنترنت عند الحاجة، إذ يظهر نموذج GPT-4o، عند تمكين ميزة البحث عبر الإنترنت، دقة تصل إلى 90% في اختبارات مثل SimpleQA.
لكن إذا استمر الاتجاه نحو النماذج المنطقية ذات القدرات التحليلية المرتفعة، فقد يعني ذلك ارتفاعا إضافيا في معدلات الهلاوس، ما يجعل حل هذه المعضلة أكثر إلحاحا من أي وقت مضى.
وأكد متحدث باسم OpenAI، نيكو فيليكس، أن "مشكلة الهلاوس لا تزال من أولويات فرق البحث لدينا، ونعمل باستمرار على تحسين دقة وموثوقية النماذج".
المصدر: صدى البلد
كلمات دلالية: الذكاء الاصطناعي الهلاوس النماذج الجديدة المزيد الذکاء الاصطناعی
إقرأ أيضاً:
أكثر من 300 موظف في غوغل يحتجون على بيع تقنيات ذكاء اصطناعي للاحتلال الإسرائيلي
#سواليف
نشرت صحيفة “فايننشال تايمز” تقريرًا مفصلًا حول احتجاج موظفي “ #ديب_مايند ” في المملكة المتحدة على #صفقات الشركة مع جهات أمنية مرتبطة بحكومة #الاحتلال الإسرائيلي.
وفقًا للتقرير، يسعى حوالي 300 موظف في “ديب مايند” بلندن للانضمام إلى نقابة عمال الاتصالات (Communication Workers Union) بهدف معارضة قرار الشركة ببيع #تقنيات #الذكاء_الاصطناعي لمجموعات أمنية مرتبطة بحكومة الاحتلال الإسرائيلي.
يأتي هذا التحرك بعد أن تخلت “ #غوغل ” في فبراير 2025 عن تعهدها السابق بعدم تطوير تقنيات ذكاء اصطناعي قد تسبب ضررًا، بما في ذلك الأسلحة والمراقبة.
مقالات ذات صلة مظاهرات تضامنية مع غزة في مدن أميركية وأوروبية وإسلامية وعربية 2025/04/26أثار قلق الموظفين تقارير إعلامية تفيد بأن “غوغل” تقدم خدمات سحابية وتقنيات ذكاء اصطناعي لوزارة حرب الاحتلال الإسرائيلي ضمن مشروع “نيمبوس” (Project Nimbus)، وهو عقد بقيمة 1.2 مليار دولار تشترك فيه مع “أمازون”.
ويخشى الموظفون من أن تُستخدم هذه التقنيات المتقدمة في حرب الإبادة على قطاع غزة، خاصة في عمليات تحديد الأهداف العسكرية.
وأدى هذا القلق إلى استقالات بين الموظفين، حيث استقال خمسة موظفين خلال الشهرين الماضيين احتجاجًا على الصفقة. كما تم فصل بعض الموظفين في الولايات المتحدة بعد احتجاجهم على مشروع “نيمبوس”.
وتسعى حركة التنظيم النقابي للحصول على اعتراف رسمي من الشركة، وإذا لم تنجح المفاوضات، قد يُنظر في اتخاذ إجراءات إضراب. من جهتها، أكدت “غوغل” التزامها بتطوير الذكاء الاصطناعي بشكل مسؤول، مشيرة إلى أن البيئة قد تغيرت منذ تعهدها في عام 2018 بعدم تطوير تقنيات أسلحة أو مراقبة.
هذا التحرك يُعد جزءًا من اتجاه أوسع لزيادة النشاط النقابي داخل قطاع التكنولوجيا، حيث يتحدى الموظفون التزامات الشركات الأخلاقية في ظل تزايد استثمارها في تقنيات الذكاء الاصطناعي.