اختبار جديد يكشف حدود التفكير المنطقي للذكاء الاصطناعي.. وهذه هي المفاجآت!
تاريخ النشر: 7th, February 2025 GMT
قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش".
ألغاز برنامج Sunday Puzzle
يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة.
اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ
نتائج غير متوقعة
في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج.
وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة.
أخبار ذات صلة
اقرأ ايضاً.. هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي
تفوق نسبي لـ o1.. وأداء ضعيف لـ R1
على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية.
كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة.
أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي.
كيف نحسن قدرات الذكاء الاصطناعي
تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة".
من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية.
إسلام العبادي(أبوظبي)
المصدر: صحيفة الاتحاد
كلمات دلالية: الذكاء الاصطناعي الروبوتات الذکاء الاصطناعی
إقرأ أيضاً:
«أبل» تؤجل دمج أحد خدماتها بـ«الذكاء الاصطناعي» حتى 2026.. ما السبب؟
أعلنت شركة “أبل” تأجيل إطلاقها النسخة الجديدة من مساعدها الصوتي “سيري”، التي تعتمد على تقنيات الذكاء الاصطناعي، مشيرة إلى أن “المميزات المتقدمة التي تعمل عليها تحتاج إلى مزيد من الوقت قبل أن تصبح جاهزة للاستخدام”.
وقالت الشركة في بيان: “نهدف إلى منح سيري قدرة أكبر على فهم سياق الاستخدام الشخصي للمستخدم، إضافة إلى تمكينه من تنفيذ الأوامر داخل التطبيقات المختلفة، لكننا أدركنا أن تحقيق ذلك سيستغرق وقتاً أطول مما كنا نتوقعه”.
هذا”وجاء الإعلان بعد تقرير، نشرته بلومبرغ في 14 فبراير، كشفت فيه أن “أبل كانت تواجه صعوبات في تطوير الميزات الجديدة لمساعدها الصوتي”.
وكانت الشركة قد كشفت، لأول مرة، عن “إصدار سيري المطور خلال مؤتمرها السنوي للمطورين WWDC 2024 في يونيو 2024، لكن التحديات التقنية والإدارية دفعتها إلى تأجيل الإطلاق”.
و”تخطط الشركة تخطط لإطلاق “سيري” الجديد في مايو 2025، إلا أن الموعد أُرجئ مجدداً بعد أن كانت التوقعات السابقة تشير إلى “دمج الميزة ضمن تحديث iOS 18.4، المقرر طرحه في أبريل”.
ووفق التقرير، “يهدف التحديث المرتقب إلى جعل “سيري” أكثر قدرة على التعامل مع الأوامر الصوتية المعقدة، وذلك عبر ميزتين رئيسيتين، وهما “السياق الشخصي” (Personal Context)، والتي تسمح لـ”سيري” بالوصول إلى بيانات المستخدم، مثل جداول المواعيد والتطبيقات المستخدمة، مما يساعده في تقديم إجابات أكثر دقة وتنفيذ الأوامر بشكل أكثر كفاءة، بينما الميزة الثانية تتمثل في “نوايا التطبيقات” (App Intents)، وهي آلية جديدة تمكن “سيري” من التحكم في التطبيقات بشكل أكثر تفصيلاً عبر جميع أنظمة أبل، مما يمنح المستخدم تجربة أكثر سلاسة في تنفيذ المهام داخل التطبيقات المختلفة، سواء كانت تطبيقات أبل أو تطبيقات الطرف الثالث، دون أن يحتاج المستخدم لفتح التطبيق يدويا بنفسه”.
ووفقاً لـ “بلومبرغ” فإن “فريق الذكاء الاصطناعي في “أبل” يواجه مشكلات تتعلق بالإدارة والهندسة التقنية، وهو ما أدى إلى تأخير المشروع”.
آخر تحديث: 8 مارس 2025 - 20:00