الصورة في مخيّلة الذكاء الاصطناعي
تاريخ النشر: 27th, January 2024 GMT
يحاول بعضٌ مِنَّا أن يترجم أفكاره إلى صور تفرزها مخيّلته الواسعة، ويحاول البعض -خصوصا في فترة الطفولة- أن يجعل من هذه الأفكار صورا يرسمها على الأوراق البيضاء؛ علّها تسعف خواطره المشدودة إلى أمنيات يتوق إليها أو رغبات يرجوها أن تتحقق؛ فيجد ضالتَه -الممكنة- عبر الإبداع في تحويل هذه المشاعر والأفكار إلى صور -ساكنة- تَعبْر به -في لحظتها- إلى عالَم مفقود يتجسّده الخيال ينشد بواسطته واقعه المفقود.
أعود إلى موضوعنا الخاص بهذا المقال الذي يتناول قدرات أخرى لنماذج الذكاء الاصطناعي، وهي القدرة على توليد الصور وتخيّلها وفقا للوصف البشري الذي يعين به النموذج التوليدي على التخّيل المناسب للصورة المقترحة، وسيكون التركيز في هذا المقال على أحد أهم أدوات توليد الصور المستعملة في الذكاء الاصطناعي التي تُعرف بـ«دالي» «DALL.E» المندرجة تحت مظلة نموذج «شات جي بي تي 4». سنتطرق إلى تعريف القارئ بهذه الأداة الذكية، وآلية عملها وقدراتها، وعرض التجربة الشخصية بعد استعمال هذه الأداة التي أمكن أن تحدد مفاصل القوة والضعف لديها. أضافت شركة «OpenAI» أداة «دالي» لأول مرة في عام 2021م؛ لتكون ضمن الأدوات الذكية التابعة لـ«شات جي بي تي 4» الذي أُلحِقَت به -مؤخرا- أدوات أخرى بعضها تُعدّ فرعيةً تندرج تحت مظلة الأدوات الرئيسة مثل أداة «دالي»؛ إذ نجد -حتى اللحظة- وجود ما يقرب من اثنتي عشرة أداة فرعية تابعة لأداة «دالي» تتعلق جميعها بالصور وتوليدها -تتشابه في وظائفها التوليدية العامة للصور- وأُخِذَ اسم «دالي DALL.E» من اسم الفنان التشكيلي الأسباني «سلفادور دالي» «Salvador Dali» (1904م- 1989م) الذي يُعدّ علما من أعلام المدرسة السريالية الخاصة بالفنون، وكذلك ارتبط جزءٌ آخر لاسم الأداة من شخصية WALL-E من ابتكار شركة «Pixar» المتخصصة في الإنتاج الفني «الكارتوني» عن طريق الأنظمة الحاسوبية.
من المهم أن نطوفَ -بشكل مختصر- داخل هذه الأداة الذكية؛ لنعرفَ خباياها الرقمية التي تجعل منها أداةً ذكيةً قادرةً على تخيّل الصور وتوليدها. تتبنّى خوارزمية الذكاء الاصطناعي في «دالي» نظامَ التعلّمِ العميق «Deep Learning» الذي يعمل وفق أنظمة رياضية تعينه في أهم مراحله «مرحلة التعلّم أو التدرّب»، وإحدى أهم هذه الأنظمة ما يُعرف بـ«الانتشار الخلفي» «BackPropagation» -الذي سبق تناوله في مقالات سابقة- وكذلك «دالة الكلفة» «Cost Function» التي تُعرف أيضا بـ«دالة الخسارة» «Loss Function» التي تعمل جنبا إلى جنب مع نظام «الانتشار الخلفي»؛ لتقييم قدرة تدرّب الخوارزمية على البيانات المُعطَاة وقياس تناسبها وملاءمتها، وهذه من المبادئ العامّة التي تشترك فيها معظم خوارزميات الذكاء الاصطناعي التي تعتمد على نظام «التعلّم العميق»، وسبق شرحه أيضا في مقالات سابقة. نُقرّب النظرَ في هذا المقال فيما يتعلق بآلية عمل أداة «دالي» التي تكون مرحلة «التدرّب» أولى الأعمال التي تباشرها خوارزمية هذه الأداة وأهمها، وهنا يكون التدرّب على مجموعة كبيرة من الصور المتعددة التي تمنح هذه الأداة القدرة على فهم أنماط متباينة للصور وتخيّل مفاصلها الفنية وفق طريقة تشبه -إلى حد كبير- آلية الدماغ البشري في تخيّل الصور وتوليدها الذهني -يقظة ومناما.
تتكون المنظومة الرقمية الرئيسة في خوارزمية «دالي» من نظام يُعرف بـ«المُشفِّر الآلي» «Auto-encoder» الذي يتفرّع منه نظامان هما: المُشفِّر «Encoder» الذي يعمل على استقبال الصور، وكاسر التشفير «Decoder» الذي يعمل على توليد الصور بعد فك شيفرتها الرقمية، ويمكن تشبيه هذا النظام الرئيس -الذي تعتمد عليه أداة «دالي»- بنظام «المحوِّل» «Transformer» الذي يعمل عليه نموذج «شات جي بي تي» في توليد النصوص- وسبق شرحه في مقال سابق- إلا أنه في مراحل التدرّب عند أداة «دالي»، يتدخل نظام «المحوِّل» الذي يعمل على نقل النص التوصيفي للصور -الذي يصفه الإنسان للنموذج بواسطة النص- فيحوّله إلى مدخل آخر يساعد خوارزمية «دالي» على تخيّل الصور وتوليدها، وهذا ما يفسّر السعة الحاسوبية الكبيرة التي تتطلبها أداة «دالي» مقارنة بالسعة الحاسوبية الأقل المُتطلبة للنموذج التوليدي الخاص بالنصوص. هناك تفاصيل تقنية معقدّة تتعلق بآلية عمل خوارزميات «دالي» وتفرعاتها الرياضية التي لا أرى أن هذا المقال يتسع لتناولها، ولا أرى ضرورةً لسردها؛ إذ يمكن للقارئ -المهتم بهذه التفاصيل- السعي في فهمها عبر المصادر الرقمية المفتوحة والمتعددة، وإنما أردت أن أفتحَ باب التشويق في كشف لثام هذه الأداة التي اكتشفت -عبر تجربتي الشخصية لها- بعضا من زوايا قوتها وضعفها كما سيتضح في السطور الآتية.
لست من هواة الفن والصور -إلى حدِّ الشغف- وارتباطاتها الوظيفية -الرسم والتصوير- وكان استعمالي لأداة «دالي» رغبةً في فهم عمل خوارزمية هذه الأداة، والتأمل في قدرتها على تخيّل الصور وتوليدها؛ فجربت طرقا عدة في التفاعل مع هذه الأداة منها إعطاء وصفٍ -نصّي- باللغتين العربية والإنجليزية لصورٍ تجوب في خاطري أو أستوحيها من محيط بيئتي، وتجربة منح الوصف عموما -لا تفصيل فيه- ومنحه تفصيلا دقيقا للصورة المطلوبة، وطلب تعديل الصور -بعد توليدها- عبر حذفٍ أو إضافةٍ، وخرجت بنتائج أسعفتي في فهم بعضٍ من سلوك خوارزمية هذه الأداة من حيثُ مفاصلُ القوةِ والضعف؛ فوجدت الأداة قادرة -نسبيا- على التفاعل مع النص الواصف للصورة؛ لتحوّل الوصف النصّي إلى صورة تحاكي الصور الواقعية -من حيث جودتها- وتزداد الصورة واقعيةً -في عكسها للصورة المطلوبة- كلما زادت تفاصيل الوصف النصّي، وتقل الواقعية مع الابتعاد عن تقديم التفاصيل الدقيقة والاكتفاء بالوصف -النصّي- العام. تقع كذلك خوارزمية «دالي» في مأزق التحليل غير الدقيق للوصف النصّي -في بعض الحالات- إذ تتجاوز أداة «دالي» -في حالات كثيرة- بعضَ ملامح توصيف الصورة المطلوبة حتى مع الطلبات -المتكررة- للتعديل وتجنب تجاوز هذه الملامح؛ فتظل الخوارزمية عاجزة -في هذه الحالات- عن بلوغ أفضل درجات التفاعل بين النص التوصيفي للصورة وبين الصورة الناتجة من تأويل النص، وهذا ما يمكن اعتباره أمرا واردا عند بداية الطريق لهذه النماذج الرقمية، ويمكن تجاوز مثل هذه التعرجات الرقمية وتحسينها في نسخٍ قادمة لهذه النماذج بعد التطويرات التي ستُمنَحُ لمثل هذه النماذج الذكية، ولا عجب أن نرى ما هو أكثر دهشةً في قادم السنوات المقبلة فيما يتعلق بالثورة الرقمية بما في ذلك توليد الصور الذي سيُحدث نقلة نوعية -مفتوحة للجميع- في تخيّل الصور وتوليدها عبر خوارزميات الذكاء الاصطناعي.
د. معمر بن علي التوبي أكاديمي وباحث عُماني
المصدر: لجريدة عمان
كلمات دلالية: الذکاء الاصطناعی هذه النماذج شات جی بی تی هذه الأداة هذا المقال الذی یعمل النص ی التی ت الذی ی
إقرأ أيضاً:
ثريدز تضيف خاصية جديدة لإعادة مشاركة الصور والفيديوهات
أضافت خدمة التدوينات القصيرة ثريدز على منصة التواصل الاجتماعي إنستجرام خاصية جديدة لإعادة مشاركة الصور والفيديوهات.
ميزات الخاصية الجديدة
وأشار موقع تك كرانش المتخصص في موضوعات التكنولوجيا إلى أن الخاصية الجديدة تتيح لمستخدمي ثريدز على منصة إنستجرام النقر على خيار جديد هو "استخدام الوسائط"، لإعادة مشاركة الصورة أو الفيديو مباشرة في منشور جديد، بدلا من من نشر الاقتباسات من المنشور الأصلي ثم إضافة التعليقات. كما تتيح الخاصية الجديدة للمستخدمين إضافة نصهم الخاص مع الصورة أو الفيديو، لكن ستظل الصورة أو الفيديو منسوبة إلى صاحب المنشور الأصلي.
وكشف آدم موسيري رئيس إنستجرام المملوكة لشركة ميتا بلاتفورمس المالكة لشبكة فيسبوك عن الخاصية الجديدة في منشور على خدمة ثريدز، مشيرا إلى أن الخيار الجديد سيكون "طريقة سريعة لإضافة لمسات المستخدم المبتكرة إلى الصور المنتشرة" على منصة التواصل الاجتماعي.
كما أشار منشور آخر على حساب خدمة ثريدز إلى إن نسب صاحب الصورة أو الفيديو الأصلي سيظهر أعلى يسار الصورة أو الفيديو عند إعادة مشاركتها باستخدام خاصية "استخدام الوسائط".
طريقة الاستخدام
وللوصول إلى خيار "استخدام الوسائط"، يمكن للمستخدم الضغط لفترة طويلة على أي وسائط منشورة على ثريدز سواء كانت صورا أو فيديوهات، أو النقر على زر إعادة النشر ليظهر بعد ذلك خيار "استخدام الوسائط" كخيار جديد في النافذة المنبثقة أسفل "إعادة النشر" و"اقتباس". ومن المنتظر تعميم الخاصية الجديدة خلال فترة قصيرة لآن موسيري قال إنها ستكون متاحة لجميع مستخدمي إنستجرام وليست بشكل تجريبي لعدد محدود منهم.