اللغة العربية في عصر الذكاء الاصطناعي.. الفرص والتحديات
تاريخ النشر: 24th, January 2024 GMT
سعيد بن محمد الكلباني
يشهد العالم تطورًا متسارعًا في مجال التكنولوجيا، ويبرز في خضمه الذكاء الاصطناعي كعنصر محوري مؤثر ودافع للتحولات في مجالات عدة، وبخاصة مجال معالجة اللغات. ومثل ما هو معلوم فإن النماذج اللغوية التوليدية قائمة على الحوار أو التحادث باللغات البشرية الطبيعية، إلا أن ذلك ليس بالأمر الإيجابي دائما بما يخدم اللغات؛ نتيجة لتمايز النماذج في دقتها مع لغة مقابل لغة أخرى، ولتفاوت المستخدمين في درجة تمكنهم من اللغة التي يتحدثونها واللغات الأخرى المستخدمة، وعامل اللهجات.
من هنا تبرز اللغة العربية بكل ثرائها وتعقيدها كحقل خصب للفرص والتحديات في مضمار الذكاء الاصطناعي، فلغة الضاد -بكل ما تحمله من تاريخ وعمق لغوي وغزارة كلمات ومضامين- تقف اليوم أمام أفق واسع من التحديات المتشكلة من قِبل المستخدمين لها، والبرمجيات المستخدمة فيها، قد يؤدي هذا في الأحوال الحسنة إلى تحويل الجيد إلى الأجود، وربما ينتقل الجيد إلى سيئ والسيئ إلى الأسوأ في أسوأ الأحوال، وتتخلف القافلة بذلك عن الركب.
تتجسد مشكلة اللغة العربية في عصر الذكاء الاصطناعي التوليدي في عملية جمع البيانات من المصادر الرقمية التي يمكن أن تصل لها أدوات الجمع، وما كتب فيما تم جمعه من تلك المصادر، إذ يشوب تلك العملية مجموعة من التحديات التي بشكل أو بآخر تحوّل فرص الاستفادة من الذكاء الاصطناعي في تطوير اللغة ونشر المحتوى بها حسب أصولها وقيمها ومبادئها إلى عقبات تتسبب في تأخيرها عن مقارعة اللغة الإنجليزية بغزارة المحتوى المنشور بها.
تتجلى تحديات اللغة العربية في ميدان الذكاء الاصطناعي التوليدي في تعقيد اللغة نفسها، فالعربية الكلاسيكية لغة إسماعيل بن إبراهيم عليهما السلام بإعرابها وتصريفها وتنوع معانيها، والعربية القياسية الحديثة، واللهجات العامية، جميعها تقدم لوحة فسيفسائية من التحديات أمام النماذج اللغوية الاصطناعية، حيث إن الفروق الدقيقة في استخدام الكلمات والتراكيب المنشورة على شبكة الإنترنت تحتاج إلى أدوات كشط دقيقة في جمعها من المصادر الرقمية، وعمليات متعددة مبنية في تركيبها ووظيفتها على فهم دقيق لخصائص اللغة ومكامنها، وتصنيفها. وفي سياق التعقيد ذاته، نجد أن المنشور بشكل عام عبر شبكات الإنترنت و-بخاصة في الصفحات الإخبارية التي اعتُمد عليها كثيرًا في تدريب نماذج الذكاء الاصطناعي- يتّجه نحو البساطة في الطرح اللغوي، ويتجنب كلمات اللغة القديمة، وبالتالي لن تظهر اللغة العربية بقوتها وتاريخها في النماذج، هذا يعني أن هذه التقنيات سوف تساهم في غروب شمس اللغة من خلال كلمات عريقة أصيلة لم تصل إليها، وبالتالي لن تقدمها للمستخدمين بأي حال من الأحوال.
تتلاحق التحديات كحلقات سلسلة يأزر بعضها البعض، فالحضور الضعيف للمحتوى العربي على شبكة الإنترنت الذي لا يتجاوز 3% حسب التقرير الصادر عن الاتحاد الدولي للاتصالات، والذي سلطت عليه الضوء شبكة بي بي سي الإعلامية في 9 يونيو 2023 يمكن أن يظهر تحديًا يتشكل في نقص البيانات المتاحة باللغة العربية كمًا، وجودةً، وهذا النقص يحد من قدرة الذكاء الاصطناعي على التعلم والتطور بالشكل المثالي، كما أن عامل تدريب نماذج الذكاء الاصطناعي المعتمد على اللغة الإنجليزية بشكل أساسي والتي بلغت نسبة 92.3% من مجموع النسبة العامة للمحتوى في تدريب نموذج GPT-3.5 المطور من شركة Open AI مقابل 7.7% موزعة على المحتوى لباقي اللغات، ومع نقص المحتوى العربي تتفاقم مشكلة نقص البيانات التي تتضمنها نماذج الذكاء الاصطناعي من المحتوى العربي.
تشكل اللهجات تحديًا آخر، حيث تشير عدد من التقارير إلى أن 550 مليون نسمة حول العالم يتحدثون باللسان العربي، وينقسمون إلى 300 مليون منهم تمثل اللغة العربية لغتهم الأم، وما تبقى يتخذونها لغة ثانية. إن هذا العدد والتفاوت فيه مؤشر على تنوع اللهجات والتي هي في الأساس تفرعات وتحويرات في اللغة العربية، نشأت وتأصلت حسب الأقطار والقبائل، والطوائف، والأنشطة، وغيرها.
وبالنظر إلى عدد المتحدثين باللسان العربي، وتنوع لهجاتهم التي تحمل كل منها خصوصيتها وتركيبتها اللغوية، المختلفة بدرجة كبيرة عن الفصحى وعن اللهجات الأخرى، يمكننا استقراء تنوع المحتوى المنشور والمتشرب بالكلمات غير الفصيحة، وكذلك استقراء مضمون الكلمات في نشاط التحادث بين المستخدم العربي ونماذج الذكاء الاصطناعي التوليدية، إذ أن المحتوى والتحادث سوف يحملان الكثير من الكلمات المنحازة في المعنى لقطاع جغرافي أو فئة معينة، والتي بذلك تكون مقطوعة من اللغة العربية، وتبقى مجهولة المعنى لقلة انتشارها. كما أن هناك عاملًا آخر يساهم في خلق التحدي، وهو أن اختلاف معنى الكلمة بين فئة وأخرى، وتأثير ذلك كتحدٍ يكون بعدم ظهور هذه الكلمات في نماذج الذكاء الاصطناعي، أو ظهورها الذي ينحصر فهمه للفئة التي تعرفها. إن ذلك الترادف أو التنوع يشبه التعامل مع النصوص ثنائية اللغة، وهو أيضًا أمر آخر لا يقل عن كونه تحديًا يتطلب من النماذج اللغوية القدرة على فهم ومعالجة هذا التنوع اللغوي بالتصنيف والضبط.
كقاعدة ترتبط بما سبق من تحديات، ينشأ تحدٍ مستقبلي يتمثل في سعي مطوري نماذج الذكاء الاصطناعي إلى تدريب تلك النماذج على المحادثات التي دارت بين المستخدمين العرب بلهجاتهم وأخطاءهم في الكتابة، والتعلم الآلي غير المشرف عليه من المحتوى عبر الشبكة أو أرشيف المحادثات، كل ذلك سوف يؤدي إلا طمس الكثير من الكلمات الأصيلة في اللغة العربية، وبروز كلمات من لهجات مختلفة، وأخطاء لغوية وغيرها، مما يعني أن المستخدم غير المتمكن من اللغة وغير المراعي لخصوصيتها واستخدام اللغة الفصيحة، سوف يساهم نفسه في تحويل الجيد إلى سيء والسيء إلى أسوأ.
إنَّ تحديات اللغة العربية في عصر الذكاء الاصطناعي لا تقتصر على اللغة نفسها ومستخدميها، ولكن تمتد إلى بناء النماذج اللغوية الاصطناعية. فمسألة التحيز والأخلاقيات في تدريب النماذج اللغوية قد تؤدي إلى نتائج مشوهة أو غير دقيقة، مما يشكل تحديًا يضاف إلى السلسلة التي تحوّل فرص اكتساب اللغة العربية من القوة والامتياز إلى تحديات.
يتوجب علينا اليوم كأفراد مواجهة لامبالاة البعض في نشر المحتوى عبر شبكة الإنترنت ووسائل التواصل بلهجات دراجة وبأخطاء لغوية، واستخدام اللهجات الدارجة مع نماذج الذكاء الاصطناعي، كما أن عدم التوازن في التواصل مع الشركات المطورة لنماذج الذكاء الاصطناعي التي تظهر بها أخطاء لغوية أو كلمات عربية غير مفهومة يمكن أن يكون حلًا ناجعًا يحافظ على فرص اللغة العربية في الاستفادة من الذكاء الاصطناعي.
أما على الصعيد المتقدم، فإنه على المؤسسات الكبرى والأكاديمية بناء نماذج ذكاء اصطناعي مخصصة للغة العربية، أو توفير محتوى عربي يمتاز بالجودة والشمول وتقديمه للمؤسسات غير العربية التي تبني النماذج، ويمكن النظر بإيجابية، والحذو بتجربة شركة Core42 إحدى شركات مجموعة G42 التكنولوجية الرائدة في الإمارات التي أطلقت نموذج Jais 30B الأكثر كفاءة في برامج اللغة العربية التي يمكنها تشغيل تطبيقات الذكاء الاصطناعي التوليدية، والذي تم تدريبه على مجموعة بيانات تتكون من 126 مليار رمز عربي، و251 مليار رمز باللغة الإنجليزية. مما يعطي دعمًا قويًا للمستخدم لإثراء المحتوى العربي وتجويده.
كما إنه يمكن جعل اللغة العربية تستغل فرصها من الذكاء الاصطناعي في تطويرها وجودتها وجودة مستخدميها في التعامل بها، من خلال استغلال مصدر الخوف أو المشكلة وجعلها مصدر قوة، فعلى سبيل المثال يمكن إنشاء برمجيات أو خوارزميات لتتبع الأخطاء ضمن نماذج الذكاء الاصطناعي سواء عند إدخالها من قبل المستخدم أو التي يحتمل أن يقدمها النموذج نفسه. وفي ذات سياق الأفكار المعتقد بأنها تدفع نحو الجودة في اللغة يمكن ضبط النماذج عند الاستجابة لمطالبات أو أوامر المستخدم على تقديم مجموعة من الكلمات عن المرادفة أو حتى التعرف على الكلمات في اللهجات والإشارة لها وحتى تقديم كلمات عربية فصيحة بدلًا من تلك الكلمات.
ختامًا.. اللغة العربية تتطلب اليوم حرصًا من الأفراد والمؤسسات للمحافظة عليها والسمو بها بين اللغات الأخرى، في ظل طوفان الذكاء الاصطناعي الذي يقوم جله على اللغة الإنجليزية، وفي ظل التوجهات المؤسسية لجعل اللغة الإنجليزية متطلبًا إلزاميًا للتوظيف والتواصل مع المحيط العالمي، الذي أصبح متقارب الأركان بفعل التكنولوجيا.
المصدر: جريدة الرؤية العمانية
إقرأ أيضاً:
بكين تدرج الذكاء الاصطناعي للطلاب من المرحلة الابتدائية
تعتزم المدارس الابتدائية والثانوية كافة في بكين تقديم حصص تعليمية حول الذكاء الاصطناعي اعتبارا من العام الدراسي المقبل، على ما ذكرت وكالة أنباء الصين الجديدة (شينخوا).
وحظيت صناعة الذكاء الاصطناعي في الصين باهتمام دولي هذا العام بعد أن أطلقت شركة "ديب سيك" DeepSeek نسخة جديدة من روبوت المحادثة العامل بالذكاء الاصطناعي في يناير، ما أحدث موجة صدمة عبر الأسواق العالمية.
وأثار برنامج "ديب سيك" إعجاب خبراء الصناعة بقدرته الواضحة على منافسة أو حتى تجاوز قدرات المنافسين الغربيين مثل "تشات جي بي تي"، بتكلفة أدنى بكثير.
وذكرت وكالة "شينخوا" أن المدارس في العاصمة ستخصص ما لا يقل عن ثماني ساعات من دروس الذكاء الاصطناعي لكل عام دراسي بدءا من الفصل الدراسي الذي يبدأ في أوائل سبتمبر.
ويمكن للمدارس أن تدير هذه المواد كحصص مستقلة أو أن تدمجها في مواد دراسية قائمة أساسا مثل تكنولوجيا المعلومات أو العلوم.
وأفادت لجنة التعليم التابعة لبلدية بكين في بيان أنه "سيتم تقديم أساليب تدريس مبتكرة، باستخدام أجهزة مرافقة وأدوات مساعدة بحثية بالذكاء الاصطناعي، وغيرها من برامج المساعدة الذكية لتسهيل التعلم من خلال الحوار بين الإنسان والآلة".
وأشارت إلى أن بكين تخطط أيضا لاستكشاف المزيد من الفرص للتعاون بين الجامعات والمدارس الثانوية لتنمية المواهب في مجال الذكاء الاصطناعي.
ويتضمن ذلك تطوير سلسلة من "دورات التعليم المتقدمة في مجال الذكاء الاصطناعي والتي تركز على التطوير المبكر للمواهب المبتكرة الاستثنائية".
وفي الشهر الماضي، أجرى الرئيس الصيني شي جين بينغ محادثات مع كبار رجال الأعمال في قطاع التكنولوجيا الصيني، في حدث نادر أثار التفاؤل بشأن زيادة الدعم للقطاع.
وعزز شي دور الشركات المملوكة للدولة في ثاني أكبر اقتصاد في العالم، كما تصدى للتوسع "غير المنظم" في العديد من القطاعات.
وحظيت "ديب سيك" بإشادة السلطات، كما حضر مؤسسها الاجتماع مع الرئيس الصيني.
وتتجه الأنظار حاليا إلى برامج الذكاء الاصطناعي الجديدة في الصين، الساعية لمنافسة "ديب سيك".
وكشفت شركة التكنولوجيا الصينية العملاقة "علي بابا" الأسبوع الماضي عن نموذج ذكاء اصطناعي يسمى QwQ-32B، تقول إنه يتمتع "بأداء مماثل" لـ "ديب سيك" بينما يتطلب بيانات أقل بكثير للعمل.
إلى ذلك، فإن "مانوس" Manus، وهو مساعد جديد وقوي يعمل بالذكاء الاصطناعي، يُحدث ضجة في البلاد، مع قدرات تُعتبر بشكل عام أكثر تقدما من تلك الموجودة في روبوتات المحادثة.