شريان الحياة للذكاء الاصطناعي.. كيف تواجه شركات التقنية معضلة انتهاء البيانات؟
تاريخ النشر: 20th, July 2024 GMT
في نهاية عام 2021، وبينما تدرب شركة أوبن إيه آي نماذجها للذكاء الاصطناعي، واجهت حينها أزمة في الإمداد. إذ استهلكت كل مخزون النصوص الإنجليزية الموثوقة على الإنترنت أثناء تطويرها لأحدث أنظمتها للذكاء الاصطناعي، وكانت بحاجة إلى المزيد من البيانات الجيدة لتدريب النسخة التالية من نظامها؛ احتاجت للكثير جدا من تلك البيانات.
لذا، ابتكر باحثو أوبن إيه آي، أداة للتعرّف على الكلام تُسمى "ويسبر" (Whisper)، يمكنها نسخ الأصوات من مقاطع فيديو يوتيوب، مما ينتج عنه نصوص محادثة جديدة قد تجعل نظام الذكاء الاصطناعي أكثر ذكاءً. وبحسب ما ذكرته صحيفة نيويورك تايمز، فقد ناقش بعض موظفي الشركة كيف تتعارض تلك الخطوة مع قواعد يوتيوب، إذ يحظر الموقع المملوك لشركة غوغل استخدام مقاطعه في التطبيقات المنفصلة عن المنصة.
في النهاية، فرّغ فريق أوبن إيه آي، أكثر من مليون ساعة من مقاطع فيديو يوتيوب، مستخدما تلك البيانات في تدريب نموذج "جي بي تي-4″، وهو أقوى نموذج للذكاء الاصطناعي تملكه الشركة.
غوغل استفادت من محتوى مقاطع الفيديو على يوتيوب لاستخراج نصوص لتدريب نماذجها للذكاء الاصطناعي (شترستوك) مطاردات يائسةتحول السباق نحو ريادة مجال الذكاء الاصطناعي التوليدي إلى مطاردات يائسة للوصول إلى أكبر قدر من البيانات الرقمية اللازمة لتطوير تلك التقنيات. وفي سبيل اقتناص هذا الكم الهائل من البيانات، اختصرت شركات التقنية مثل أوبن إيه آي وغوغل وميتا، كل السبل وتجاهلت سياسات الشركات وبحثت في تجاوز القانون، وفقًا لما ذكرته صحيفة نيويورك تايمز.
مثلا في شركة ميتا، التي تمتلك فيسبوك وإنستغرام، تشاور المسؤولون بشأن جمع البيانات المحمية بحقوق الطبع والنشر عبر شبكة الإنترنت، حتى إن كان يعني ذلك مواجهة دعاوى قضائية، وأضافوا أن التفاوض للحصول على تراخيص استخدام المحتوى مع الناشرين والفنانين والموسيقيين وصناعة الأخبار سيستغرق مدة زمنية طويلة.
وعلى غرار ما فعلته شركة أوبن إيه آي، استفادت غوغل من محتوى مقاطع الفيديو على يوتيوب لاستخراج نصوص لتدريب نماذجها للذكاء الاصطناعي، وهو فعل قد ينتهك حقوق النشر الخاصة بصانعي هذا المحتوى.
شريان الحياة للذكاء الاصطناعيتوضح إجراءات تلك الشركات كيف أصبحت البيانات على الإنترنت، من أخبار ومؤلفات روائية ومنشورات على وسائل التواصل الاجتماعي ومقالات ويكيبيديا والصور ومقاطع الفيديو والبودكاست والأفلام وغيرها، شريان الحياة لصناعة الذكاء الاصطناعي الناشئة. إذ يعتمد تطوير أنظمة قوية وتنافسية على وجود ما يكفي من البيانات اللازمة لتعليم تلك النماذج كيفية إنتاج نصوص وصور وأصوات ومقاطع فيديو تشبه ما ينتجه الإنسان بصورة لحظية.
هنا يجب ملاحظة أن حجم البيانات أمر بالغ الأهمية، فقد تعلمت روبوتات المحادثة الرائدة، مثل "شات جي بي تي"، من مجموعات هائلة من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، أو ما يقرب من ضعف عدد الكلمات المخزنة في مكتبة بودلي، وهي المكتبة البحثية الرئيسية بجامعة أكسفورد، التي تُجمع بها المخطوطات منذ عام 1602. وأوضح الباحثون في مجال الذكاء الاصطناعي أن أكثر البيانات قيمة هي تلك المعلومات فائقة الجودة، كالكتب والمقالات المنشورة التي كتبها وحررها بعناية أفراد متخصصون في مجالاتهم.
في يناير/كانون الثاني عام 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، ورقة بحثية رائدة عن الذكاء الاصطناعي أثارت شهية الشركات أكثر للبيانات على شبكة الإنترنت. كان استنتاجه واضحًا وصريحًا: كلما زادت البيانات المتوفرة لتدريب أحد النماذج اللغوية الكبيرة، وهي النماذج التي توجه روبوتات المحادثة، كان أداؤها أفضل. تمامًا كما يتعلّم الطالب الكثير عبر قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النصوص على نحو أفضل وتكون أكثر دقة عند حصولها على المزيد من المعلومات.
لسنوات طويلة، كانت شبكة الإنترنت، بمواقع مثل ويكيبيديا وريديت وغيرهما، تبدو مصدرا لا ينضب من البيانات، ولكن مع تطور نماذج الذكاء الاصطناعي، نقّبت شركات التقنية في المزيد من المستودعات. وكانت شركتا غوغل وميتا، بامتلاكهما مليارات المستخدمين ممن ينتجون طلبات بحث ومنشورات على وسائل التواصل الاجتماعي كل يوم، مقيَّدتين بقوانين الخصوصية وسياساتهما الخاصة، مما يمنعهما من الاعتماد على كثير من هذا المحتوى لتدريب نماذج الذكاء الاصطناعي.
لذا، أصبح وضعهم خاصا؛ يمكن لشركات التقنية أن تستنفذ البيانات ذات الجودة العالية على شبكة الإنترنت بحلول عام 2026، وفقًا لمعهد "إيبوك" (Epoch) للأبحاث. فأصبحنا الآن في وضع تستهلك فيه تلك الشركات البيانات بوتيرة أسرع مما يجري إنتاجها من العالم أجمع على الإنترنت.
بيانات اصطناعيةأصبحت شركات التقنية متعطشة للبيانات الجديدة لدرجة أن بعضها بدأ في تطوير البيانات "الاصطناعية". ليست بيانات طبيعية ينتجها البشر، بل هي نصوص وصور وأكواد برمجية تنتجها نماذج الذكاء الاصطناعي، أي أن الأنظمة تتعلم مما تنتجه بنفسها.
مثلا ذكرت شركة أوبن إيه آي، أن كل نموذج من نماذجها للذكاء الاصطناعي يمتلك مجموعة بيانات فريدة من نوعها، تنظمها وتجمعها الشركة بهدف مساعدة النموذج على فهم العالم لكي تحافظ على قدرتها التنافسية في المجال.
وذكر سام ألتمان، سابقا، أن الشركات التي تعمل مثل شركته على تطوير نماذجها، ستضطر في النهاية إلى تدريب تلك النماذج على النصوص التي يولدها الذكاء الاصطناعي أو ما يعرف بالبيانات الاصطناعية. النظرية التي يقترحها السيد ألتمان، والآخرون في هذا المجال، أنه نظرًا لقدرة نموذج الذكاء الاصطناعي على إنتاج نصوص شبيهة بالبشر، فيمكن للأنظمة أن تنتج بيانات إضافية لتطوير إصدارات أفضل من نفسها. وهذا الأمر سيساعد المطورين على ابتكار تقنيات أكثر قوة ويقلل من اعتمادهم على البيانات المحمية بحقوق الطبع والنشر.
استكشف الباحثون في المجال فكرة استخدام البيانات الاصطناعية منذ سنوات، ولكن تطوير نماذج الذكاء الاصطناعي القادرة على تدريب نفسها أسهل قولا مما يبدو عليه فعلا. لأن تلك النماذج التي تتعلم من نتائجها الخاصة قد تقع في دائرة مفرغة بحيث تعزز من عيوبها وأخطائها وقيودها الحالية.
ولمواجهة ذلك، تبحث شركة أوبن إيه آي وغيرها في كيفية عمل نموذجين مختلفين للذكاء الاصطناعي معًا لتوليد بيانات اصطناعية مفيدة وموثوقة أكثر. ينتج أحد النظامين البيانات، بينما يتولى النظام الآخر الحكم على تلك البيانات لفرز الجيد منها عن السيئ. لكن حتى هذا الحل لم يتفق الباحثون حول مدى إمكانية نجاحه من عدمها.
المصدر: الجزيرة
كلمات دلالية: حراك الجامعات حريات نماذج الذکاء الاصطناعی شرکة أوبن إیه آی شرکات التقنیة شبکة الإنترنت من البیانات المزید من
إقرأ أيضاً:
المجلس الوطني للذكاء الاصطناعي يناقش الجهود المبذولة للحوكمة
عقد المجلس الوطنى للذكاء الاصطناعى اجتماعه برئاسة الدكتور عمرو طلعت وزير الاتصالات وتكنولوجيا المعلومات؛ وتناول الاجتماع الجهود المبذولة لحوكمة الذكاء الاصطناعى لضمان الاستخدام الأمثل لهذه التقنيات، وتعظيم الاستفادة من إمكانياتها فى تحقيق التنمية الاقتصادية والاجتماعية المنشودة.
شارك فى الاجتماع بالإضافة إلى أعضاء المجلس، عدد من الخبراء المعنيين فى المجالات الاقتصادية والتكنولوجية المختلفة.
وتم خلال الاجتماع استعراض خطة تنفيذ الميثاق المصرى للذكاء الاصطناعى المسؤول الذى تم إطلاقه ويعكس التزام مصر بتطبيق مبادئ الذكاء الاصطناعى المسؤول وفقاً لمنظمة التعاون الاقتصادى والتنمية. ويستند إلى المعايير الدولية، وأفضل الممارسات فى الدول الرائدة. ويهدف الميثاق إلى تعزيز جاذبية مصر الاستثمارية وإرشاد مطورى الذكاء الاصطناعي، وتمكين المواطنين من المطالبة بممارسات أخلاقية لتطبيقات الذكاء الاصطناعي.
يأتى هذا الميثاق متوافقا مع المبادئ الدولية ويتناسب مع السياق المصري، مع التركيز على البشرية كمقصد (محورية الإنسان)، والمساءلة، والعدالة، والأمن والأمان، والشفافية وقابلية التفسير.
وتشمل خطة التنفيذ؛ تحديد اطار إدارة المخاطر فى الذكاء الاصطناعى، والاسترشاد بأفضل الممارسات الدولية، والتوعية والتدريب وبناء القدرات للجهات الحكومية والشركات، ومتابعة وتوجيه الشركات المحلية المطورة لتطبيقات الذكاء الاصطناعى بالتعاون مع هيئة تنمية صناعة تكنولوجيا المعلومات "ايتيدا"، وتطوير مبادئ توجيهية متخصصة للقطاعات ذات الأولوية لتوجيه استخدامها للذكاء الاصطناعي.
كما تطرق الاجتماع إلى الجهود المبذولة لإنشاء مركز الذكاء الاصطناعى المسئول والذى يختص بتطوير إطار عمل يتضمن إرشادات ومجموعة أدوات وأساليب وأفضل الممارسات لتمكين تبنى الصناعة المصرية للذكاء الاصطناعى المسؤول، وتطوير إرشادات ومعايير لتصنيف مخاطر نظم الذكاء الاصطناعى ولتحديد وتقييم قدرات الذكاء الاصطناعى فى الجهات الفاعلة فى مجال الذكاء الاصطناعي، بالإضافة إلى تطوير متطلبات واجب استيفاؤها من نظم الذكاء الاصطناعى وتطوير إجراءات تقييم مطابقة النظم لتلك المتطلبات، فضلا عن تطوير برامج تدريبية حول الذكاء الاصطناعى المسؤول، ودعم مبادرات التعليم والبحث العلمى فى مجال الذكاء الاصطناعي، كما يختص المركز بوضع معايير مهارات القوى العاملة فى مجال الذكاء الاصطناعي، وإجراء البحوث المتعمقة والتحليلية فى هذه التقنيات واتجاهاتها وتأثيراتها الأخلاقية، وبناء الشراكات مع أصحاب المصلحة من الصناعة والأوساط الأكاديمية والمجتمع المدنى وتسهيل الحوار والتعاون فى القضايا المتعلقة بالذكاء الاصطناعى المسؤول، وكذلك التعاون الدولى وتبادل المعرفة مع المنظمات الدولية المعنية والجهات المماثلة على مستوى العالم.
كما استعرض الاجتماع مسودة قانون الذكاء الاصطناعى والذى يأتى من ضمن أهدافه حوكمة نظم الذكاء الاصطناعى بما يضمن تعزيز الهوية الوطنية للدولة المصرية ودعم وتشجيع الشركات العاملة فى مجال الذكاء الاصطناعى وخاصة الشركات والمشروعات الصغيرة ومتناهية الصغر وتعزيز مكانه مصر فى تبنى تقنيات الذكاء الاصطناعى والمشاركة الدولية فى تطويرها ليعزز التنمية المستدامة.
وخلال الاجتماع تمت الإشارة إلى المرحلة الثانية للاستراتيجية الوطنية للذكاء الاصطناعى (2025-2030) والتى من المقرر إطلاقها قريبا.
الجدير بالذكر أنه تم إنشاء المجلس الوطنى للذكاء الاصطناعى وفقا لقرار الدكتور مصطفى مدبولى رئيس مجلس الوزراء فى نوفمبر 2019 بهدف وضع وحوكمة الاستراتيجية الوطنية للذكاء الاصطناعى من خلال التنسيق بين الجهات ذات الصلة للخروج باستراتيجية موحدة تعكس أولويات الحكومة وكافة الجهات المعنية باستخدام تطبيقات الذكاء الاصطناعى، كما يختص المجلس بالإشراف على تنفيذ هذه الاستراتيجية ومتابعتها وتحديثها بما يتماشى مع التطورات العالمية.