قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش".





ألغاز برنامج Sunday Puzzle



 

يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة.

يرى الباحثون أن هذا النوع من الألغاز مثالي لاختبار مدى قدرة الذكاء الاصطناعي على حل المشكلات بطريقة منطقية بدلاً من الاعتماد على الحفظ أو البيانات المخزنة.  




اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ

 




نتائج غير متوقعة

 

في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج.


وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة.


 

أخبار ذات صلة "التمكين الحكومي" تستعرض ريادة أبوظبي في مجال الذكاء الاصطناعي خلال جولة مايكروسوفت الذكاء الاصطناعي يحول اللغة من الدماغ إلى نصوص مكتوبة

اقرأ ايضاً..  هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي 



 تفوق نسبي لـ o1.. وأداء ضعيف لـ R1



على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية.

كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة.  


أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي.  



 




كيف نحسن قدرات الذكاء الاصطناعي



تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة".

 



من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية.


إسلام العبادي(أبوظبي)

المصدر: صحيفة الاتحاد

كلمات دلالية: الذكاء الاصطناعي الروبوتات الذکاء الاصطناعی

إقرأ أيضاً:

«أبل» تؤجل دمج أحد خدماتها بـ«الذكاء الاصطناعي» حتى 2026.. ما السبب؟

أعلنت شركة “أبل” تأجيل إطلاقها النسخة الجديدة من مساعدها الصوتي “سيري”، التي تعتمد على تقنيات الذكاء الاصطناعي، مشيرة إلى أن “المميزات المتقدمة التي تعمل عليها تحتاج إلى مزيد من الوقت قبل أن تصبح جاهزة للاستخدام”.

وقالت الشركة في بيان: “نهدف إلى منح سيري قدرة أكبر على فهم سياق الاستخدام الشخصي للمستخدم، إضافة إلى تمكينه من تنفيذ الأوامر داخل التطبيقات المختلفة، لكننا أدركنا أن تحقيق ذلك سيستغرق وقتاً أطول مما كنا نتوقعه”.

هذا”وجاء الإعلان بعد تقرير، نشرته بلومبرغ في 14 فبراير، كشفت فيه أن “أبل كانت تواجه صعوبات في تطوير الميزات الجديدة لمساعدها الصوتي”.

وكانت الشركة قد كشفت، لأول مرة، عن “إصدار سيري المطور خلال مؤتمرها السنوي للمطورين WWDC 2024 في يونيو 2024، لكن التحديات التقنية والإدارية دفعتها إلى تأجيل الإطلاق”.

و”تخطط الشركة تخطط لإطلاق “سيري” الجديد في مايو 2025، إلا أن الموعد أُرجئ مجدداً بعد أن كانت التوقعات السابقة تشير إلى “دمج الميزة ضمن تحديث iOS 18.4، المقرر طرحه في أبريل”.

ووفق التقرير، “يهدف التحديث المرتقب إلى جعل “سيري” أكثر قدرة على التعامل مع الأوامر الصوتية المعقدة، وذلك عبر ميزتين رئيسيتين، وهما “السياق الشخصي” (Personal Context)، والتي تسمح لـ”سيري” بالوصول إلى بيانات المستخدم، مثل جداول المواعيد والتطبيقات المستخدمة، مما يساعده في تقديم إجابات أكثر دقة وتنفيذ الأوامر بشكل أكثر كفاءة، بينما الميزة الثانية تتمثل في “نوايا التطبيقات” (App Intents)، وهي آلية جديدة تمكن “سيري” من التحكم في التطبيقات بشكل أكثر تفصيلاً عبر جميع أنظمة أبل، مما يمنح المستخدم تجربة أكثر سلاسة في تنفيذ المهام داخل التطبيقات المختلفة، سواء كانت تطبيقات أبل أو تطبيقات الطرف الثالث، دون أن يحتاج المستخدم لفتح التطبيق يدويا بنفسه”.

ووفقاً لـ “بلومبرغ” فإن “فريق الذكاء الاصطناعي في “أبل” يواجه مشكلات تتعلق بالإدارة والهندسة التقنية، وهو ما أدى إلى تأخير المشروع”.

آخر تحديث: 8 مارس 2025 - 20:00

مقالات مشابهة

  • ذكاء Apple المتعثر.. هل فقدت الشركة سباق الذكاء الاصطناعي؟
  • موقف الشريعة من التطورات الحديثة في الذكاء الاصطناعي
  • «الذكاء الاصطناعي» يرسم تصوراً لـ«شكل العالم» بعد 30عاماً
  • هل تقضي روبوتات الذكاء الاصطناعي على الصدق في تطبيقات المواعدة؟
  • «الإمارات الصحية» لـ«الاتحاد»: إطلاق أول مختبر بالشرق الأوسط للذكاء الاصطناعي للصحة النفسية
  • «أبل» تؤجل دمج أحد خدماتها بـ«الذكاء الاصطناعي» حتى 2026.. ما السبب؟
  • آبل تؤجل تحديثات الذكاء الاصطناعي لـ Siri إلى عام 2026
  • OpenAI تستعد لإطلاق وكلاء الذكاء الاصطناعي باشتراك 20 ألف دولار شهريا
  • تحديات في رحلة أمازون لتطوير أليكسا معززة بالذكاء الاصطناعي
  • تطوير ثوري في Llama 4 لمنافسة عمالقة الذكاء الاصطناعي