قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش".





ألغاز برنامج Sunday Puzzle



 

يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة.

يرى الباحثون أن هذا النوع من الألغاز مثالي لاختبار مدى قدرة الذكاء الاصطناعي على حل المشكلات بطريقة منطقية بدلاً من الاعتماد على الحفظ أو البيانات المخزنة.  




اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ

 




نتائج غير متوقعة

 

في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج.


وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة.


 

أخبار ذات صلة "التمكين الحكومي" تستعرض ريادة أبوظبي في مجال الذكاء الاصطناعي خلال جولة مايكروسوفت الذكاء الاصطناعي يحول اللغة من الدماغ إلى نصوص مكتوبة

اقرأ ايضاً..  هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي 



 تفوق نسبي لـ o1.. وأداء ضعيف لـ R1



على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية.

كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة.  


أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي.  



 




كيف نحسن قدرات الذكاء الاصطناعي



تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة".

 



من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية.


إسلام العبادي(أبوظبي)

المصدر: صحيفة الاتحاد

كلمات دلالية: الذكاء الاصطناعي الروبوتات الذکاء الاصطناعی

إقرأ أيضاً:

عدسات الذكاء الاصطناعي تجربة تفاعلية جديدة من سناب شات

أبوظبي (الاتحاد) أطلقت سناب شات، صيغة إعلانية جديدة، وهي "عدسات الذكاء الاصطناعي المدفوعة" "Sponsored AI Lenses" تتيح للعلامات التجارية التفاعل مع المستخدمين عبر تقنية الذكاء الاصطناعي التوليدي الخاصة بها.

وبحسب موقع "تك كرانش"، فإن هذه العدسات تتيح للمستخدمين التقاط صور سيلفي ليتم دمجهم في مشاهد مختلفة يتم إنشاؤها آليًا، ما يوفر تجربة إعلانية غير تقليدية وأكثر جذبًا مقارنة بالإعلانات العادية.

الخطوة الجديدة تعزز توجه سناب شات نحو تقديم محتوى تفاعلي أكثر تقدمًا، مما يفتح آفاقًا جديدة للعلامات التجارية في مجال التسويق الرقمي باستخدام تقنيات الذكاء الاصطناعي.

كيف تشتغل؟
يقوم المستخدم بالتقاط صورة سيلفي، ومن ثم تحلل المنصة ملامحه لدمجه في مشاهد مولّدة بالذكاء وذلك بناءً على تعليمات محددة مسبقًا (prompt) ووضعية تصوير معيّنة، ليرى نفسه داخل مشاهد خيالية تم توليدها بواسطة الذكاء الاصطناعي، مما يضيف بُعدًا تفاعليًا أكثر جاذبية.

وتوفر العدسة الواحدة حتى 10 تجارب تفاعلية متنوعة، يتم إنتاجها بناءً على أوامر مهيأة مسبقًا وتحليل دقيق لملامح وجه المستخدم.

أخبار ذات صلة عمر العلماء: صناعة المستقبل بعقول الكوادر الوطنية «قمة الطوارئ والأزمات» حلول مبتكرة وتعاون دولي مستدام

وكشفت سناب أن المستخدمين قضوا وقتًا أطول في التفاعل مع هذه العدسات مقارنة بالعدسات الإعلانية التقليدية.

على مدار العامين الماضيين، قامت سناب شات بتحسين تقنياتها التوليدية لتقديم محتوى عالي الجودة بسرعة وكفاءة. فعدسات الذكاء الاصطناعي الإعلانية تلغي الحاجة لتصميمات ثلاثية الأبعاد أو مؤثرات بصرية، وتستبدلها بقوالب تم إنشاؤها عبر الذكاء الاصطناعي، مما يُقلّل من أوقات الإنتاج بشكل كبير.

من أوائل العلامات التجارية التي استفادت من هذه التقنية كانت Tinder وUber.وهذا الإطلاق يُعد جزءًا من سلسلة من الابتكارات التي تقدمها سناب في مجال الذكاء الاصطناعي، حيث أطلقت الشهر الماضي أول عدسات فيديو بالذكاء الاصطناعي، وفي فبراير، كشفت عن نموذج لتحويل النص إلى صورة مخصص للأجهزة المحمولة، سيتم دمجه قريبًا في ميزات سناب شات. بالإضافة إلى ذلك، قدمت سناب شات "امتدادات الواقع المعزز" التي تتيح للمعلنين دمج العدسات والفلاتر مباشرة في جميع أشكال الإعلانات على المنصة، مثل الإعلانات الديناميكية وإعلانات المجموعة. ​

تسعى سناب شات من خلال هذه الابتكارات إلى تعزيز تجربة المستخدم وتوفير فرص جديدة للعلامات التجارية للتفاعل مع جمهورها بطرق مبتكرة وممتعة.

مقالات مشابهة

  • مسار جديد لقيادة الذكاء الاصطناعي في أوروبا
  • «معلومات الوزراء» يوضح تأثير الذكاء الاصطناعي على سوق العمل
  • معلومات الوزراء يوضح تأثير الذكاء الاصطناعي على سوق العمل
  • عدسات الذكاء الاصطناعي تجربة تفاعلية جديدة من سناب شات
  • أي دولة ستحسم سباق ريادة الذكاء الاصطناعي عالميًا؟
  • إنشاء مركز رقمي للذكاء الاصطناعي والتنمية المستدامة في المغرب
  • تحذير أممي: الذكاء الاصطناعي قد يؤثر على 40% من الوظائف خلال العقد المقبل
  • رفقاء افتراضيون: هل يهدد الذكاء الاصطناعي جوهر العلاقات الإنسانية؟
  • الصين تطور أول حاسوب محلي يعدل نموذج ذكاء اصطناع
  • الذكاء الاصطناعي يرصد مخالفات استخدام الهاتف في الأردن