الذكاء الاصطناعي يسعى إلى فهم العالم
تاريخ النشر: 14th, January 2025 GMT
اللغة مليئة بالأقوال المأثورة التي لها صلة بالرؤية مثل: مَن سَمِع ليس كمن رأى، والصورة تساوي ألف كلمة، وبعيد عن العين بعيد عن البال... والقائمة تطول.
السبب وراء ذلك أن البشر يستمدُّون الكثير من المعاني والفهم من أبصارهم. لكن الرؤية لم تكن دائما ممكنة. فحتى قبل حوالي 540 مليون سنة عاشت كل الكائنات العضوية تحت سطح الماء ولم يكن باستطاعة أي منها رؤية الأشياء.
ما أعقب ذلك كان لافتا. فخلال الفترة التالية التي تراوحت بين 10 ملايين إلى 15 مليون سنة دشَّنت القدرةُ على الإبصار حقبةً تعرف باسم الانفجار «الكامبري». وهي المرحلة التي ظهر فيها أسلاف معظم الحيوانات الحديثة.
أما اليوم فنحن نعيش انفجارا كامبريا معاصرا في الذكاء الاصطناعي. إذ يبدو كأنَّ أداةً جديدة محيرة للعقل تصبح متاحة كل أسبوع.
في البداية كانت وراء ثورةِ الذكاء الاصطناعي التوليدي نماذجُ اللغة الكبيرة مثل «شات جي بي تي» والذي يقلد الذكاء اللفظي للبشر. لكني أعتقد أن الذكاء الذي يرتكز على الرؤية أو ما أسميه الذكاء المكاني هو الأكثر أهمية. اللغة مهمة. غير أن قدرتنا كبشر على إدراك العالم والتفاعل معه ترتكز في معظمها على ما نراه.
منذ فترة طويلة سعى حقل فرعي للذكاء الاصطناعي يُعرف بالرؤية الحاسوبية إلى تعليم الحواسيب على اكتساب نفس الذكاء المكاني الذي لدى البشر أو أفضل منه. حقق هذا الحقل تقدما سريعا خلال فترة الـ15 عاما الماضية. واسترشادا مني باعتقادٍ جوهري وهو وجوب أن تكون منفعة البشر هي الغاية المركزية من تطوير الذكاء الاصطناعي كرستُ مساري المهني له.
الطفل لا يعلِّمه أحد على الرؤية. يَعْقَل الأطفالُ العالمَ من خلال التجارب والأمثال. وعيونهم مثل الكاميرات البيولوجية تلتقط «الصورة» خمس مرات في الثانية. وفي سن الثالثة يكون الطفل قد شاهد مئات الملايين من مثل هذه الصور.
نحن نعلم من خلال عقود من الأبحاث أن التعرُّف على الأشياء عنصر أساسي للرؤية. لذلك بدأنا تعليم الحواسيب هذه القدرة. ولم يكن هذا أمرا يسيرا. هنالك طرق لا نهائية لتحويل صورة ثلاثية الأبعاد للقطَّة مثلا إلى صورة ثنائية الأبعاد وذلك اعتمادا على زاوية الرؤية ووضعية الجسم والخلفية وتفاصيل أخرى. ولكي يتعرف الحاسوب على القطة في صورة ما يحتاج إلى الكثير من المعلومات مثلما هي الحال مع الطفل.
لم يكن ذلك ممكنا إلى أن اجتمعت معا ثلاثة عناصر في منتصف العشرية الأولى من هذا القرن. ففي تلك اللحظة الحاسمة للذكاء الاصطناعي اقترنت خوارزميات تُعرف باسم الشبكات العصبية الالتفافية وكانت موجودة منذ عقود بكل من وحدات معالجة الرسومات الحديثة والبيانات الكبيرة المتمثلة في بلايين الصور من الإنترنت والكاميرات الرقمية وما إلى ذلك. (الشبكات العصبية تعمل مثل الدماغ البشري. وهي قادرة على التعرُّف على خصائص الصور التي تحصل عليها من البيانات الكبيرة. تساعدها في ذلك وحدات معالجة الرسومات الحديثة التي تتيح للحاسوب معالجة متزامنة وبسرعة عالية للمعلومات الكثيرة عن الصور - المترجم).
ساهم مختبرنا بعنصر «البيانات الكبيرة» في الاقتران بين هذه العناصر الثلاثة. ففي عام 2007 وفي مشروع تحت اسم «إميدْج نَيت» أو شبكة الصور أوجدنا قاعدة بيانات لحوالي 15 مليون صورة مُعلَّمة عبر 22000 فئة تصنيفية للأشياء. ثم شرعنا نحن وباحثون آخرون في تدريب نماذج شبكة عصبية باستخدام الصور وعلاماتها النصية. تعلمت هذه النماذج وصف صور لم تُشاهَد من قبل باستخدام جمل بسيطة. وعلى غير المتوقع، ساعد التقدم السريع في أنظمة التعرف على الصور والتي أوجدناها باستخدام قاعدة بيانات «إميدج نيت» في إطلاق ازدهار الذكاء الاصطناعي الحديث.
مع تقدم التقنية دشنت نماذجٌ توليدية جديدة أدواتِ الذكاء الاصطناعي التوليدي. في مجال اللغة أتاح ذلك إيجاد الدردشات الآلية مثل «شات جي بي تي». أما في جانب الرؤية فالأنظمة الحديثة لا تتعرف على الصور والفيديوهات فقط بل يمكنها أيضا توليدها استجابةً لأوامر نصية. والنتائج التي تحققها مثيرة للإعجاب. لكنها لا تزال ذات بُعدين.
لكي تحصل الحواسيب على الذكاء المكاني للبشر يجب أن يكون بمقدورها نَمْذَجَة العالم وتعقُّل الأشياء والأماكن والتفاعل في كل من الزمن والحيِّز ثلاثي الأبعاد. باختصار نحن بحاجة إلى الانتقال من نماذج اللغة الكبيرة إلى نماذج العالم الكبيرة.
بدأنا نشهد «ومضات» من هذا في المختبرات الأكاديمية والصناعية. ومع أحدث نماذج الذكاء الاصطناعي المدربة باستخدام النصوص والصور وأفلام الفيديو والبيانات المكانية من المجسَّات (المستشعرات) والمشغِّلات (العضلات) الروبوتية يمكننا السيطرة على الروبوتات باستخدام الأوامر النصية كأن نطلب منها مثلا فصل الهاتف من الشاحن أو إعداد ساندويتش بسيط. أو يمكن للنموذج بإعطائه صورة ذات بعدين تحويلها إلى عدد لانهائي من صور أمكنة ثلاثية الأبعاد.
تطبيقات هذه التقنية لا نهاية لها. لكم أن تتخيلوا روبوتات يمكنها التنقل في منازل عادية لرعاية كبار السن ومجموعة من الأيدي الروبوتية التي لا تتعب وهي تعاون طبيبا جراحا أو تُستخدَم في التشبيه والتدريب والتعليم. هذا حقا ذكاء اصطناعي يتمركز حول البشر. والذكاء المكاني هو المجال التالي لانطلاقه. ما استغرق مئات الملايين من السنوات لكي يتجلَّى في عقول البشر يحتاج إلى سنوات فقط لكي يظهر في الحواسيب. ونحن البشر سنكون المستفيدين.
فَي- فَي لِي المديرة المشاركة لمبادرة الذكاء الاصطناعي الذي يتمحور حول الإنسان (إتش أيه آي) بجامعة ستانفورد والرئيسة التنفيذية لشركة ويرلد لابس (مختبرات العالم)
عن الإيكونومست
المصدر: لجريدة عمان
كلمات دلالية: الذکاء الاصطناعی
إقرأ أيضاً:
ممثلون يستخدمون الذكاء الاصطناعي للحصول على مظهر أصغر
من روتين العناية بالبشرة اليومي إلى حقن البوتوكس وشد الوجه، يفعل البعض أي شيء تقريباً لإعادة عقارب الساعة إلى الوراء، والآن، يذهب بعض الممثلين إلى خطوة أبعد من ذلك ويستخدمون تقنية مثيرة للجدل لـ"تقليل الشيخوخة" رقمياً في مظهرهم.
وفي أحدث أفلامه، يستخدم توم هانكس (68 عاماً) وزميلته في فيلم Forrest Gump روبن رايت (58 عاما) الذكاء الاصطناعي للعب نفس الزوجين في مراحل مختلفة من حياتهما، وفق "دايلي ميل".
ويقول هانكس: "إنها أداة رائعة، لأن الحوسبة الفائقة تعني أنه لا يتعين عليك الانتظار حتى مرحلة ما بعد الإنتاج للقيام بالمنظر البصري الفني البحت لها".
وكان هناك قلق متزايد بشأن استخدام الذكاء الاصطناعي في السينما، حيث يخشى العديد من الممثلين من أن تجبر التكنولوجيا البشر على الخروج من صناعة الأفلام، ومع ذلك، دافع كل من هانكس ورايت عن استخدام الذكاء الاصطناعي، قائلين إنه يزيل الحاجة إلى اختيار ممثلين أصغر سناً.
إن إزالة الشيخوخة الرقمية هي تقنية جديدة نسبياً في المؤثرات البصرية والتي يمكن أن تجعل الممثلين يبدون أصغر سناً بشكل ملحوظ مما هم عليه.
وفي مرحلة ما بعد الإنتاج، يطبق المحررون لمسات نهائية أو تراكبات تم إنشاؤها بواسطة الكمبيوتر على وجه الممثل مثل القناع الرقمي، و في الماضي، كان المحررون يصنعون نموذجاً ثلاثي الأبعاد لوجه الممثل من عمليات مسح تفصيلية ويطبقون يدوياً عملية "شد الوجه الرقمية"، أي إزالة الذقن والتجاعيد وتقليل الأنف والأذنين.
ويتم بعد ذلك رسم هذا النموذج ثلاثي الأبعاد على وجه الممثل من خلال سلسلة من النقاط المرسومة في شبكة تماماً مثل الكرات البيضاء في عروض التقاط الحركة.
ويسمح ذلك لنموذج CGI بالتحرك بشكل واقعي في الوقت المناسب مع وجوه الممثلين الحقيقيين، ومع ذلك، مع ظهور نماذج الذكاء الاصطناعي القوية، لم تعد هناك حاجة لفنان المؤثرات البصرية لإنشاء النموذج الأصغر سناً يدوياً.
وبدلاً من ذلك، يتم تدريب الذكاء الاصطناعي على صور الممثلين حتى يتمكن تلقائيًا من إنشاء الصورة الأصغر سنا، ورسم القناع على تفاصيل دقيقة على وجوه الممثلين للحصول على أداء أكثر واقعية.
ويقول توم هانكس إن أدوات الذكاء الاصطناعي الجديدة يمكنها أن تفعل في "ثانية نانوية" ما كان ليستغرق ستة أشهر من التحرير في الماضي.
وتُظهر هذه الصور كيف يمكن لأداة رخيصة الثمن عبر الإنترنت أن تحاكي تقنيات إزالة الشيخوخة الاحترافية.
وكما نرى في هذه الصور التي تم تعديلها رقمياً، فهذا يعني أن الإصدارات الأصغر سنا لا تشبه دائماً الشخص الموجود في الصورة.
ويمكن للراغب تجربة هذه التقنية بنفسك، باستخدام محرر الوجوه Wondershare AI من Media.io ، وغالباً ما تبدو المرشحات العمرية الأرخص والأبسط فكرة عامة عن شكل الشباب، هذا يعني أن الذكاء الاصطناعي يميل إلى التركيز على التفاصيل مثل تنعيم التجاعيد وتعديل شكل الوجه بدلاً من إنشاء وجه محدد.
كما يمكن تصوير المشاهد في Pinewood ، حيث تستخدم أدوات الذكاء الاصطناعي لإزالة آثار الشيخوخة.