Apple وNVIDIA وAnthropic تستخدم نصوص يوتيوب دون إذن
تاريخ النشر: 18th, July 2024 GMT
وبحسب ما ورد استخدمت Apple وNVIDIA وAnthropic نصوص YouTube دون إذن لتدريب نماذج الذكاء الاصطناعي
توصل تحقيق جديد أجرته Proof News إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذج الذكاء الاصطناعي الخاصة بها على مجموعة بيانات تضمنت نصوصًا لأكثر من 173000 مقطع فيديو على YouTube دون إذن.
تحتوي مجموعة البيانات، التي أنشأتها شركة غير ربحية تدعى EleutherAI، على نصوص من مقاطع فيديو YouTube من أكثر من 48000 قناة واستخدمتها Apple وNVIDIA وAnthropic من بين شركات أخرى.
لا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من YouTube، ولكنها تحتوي على نصوص فيديو من أكبر منشئي المنصة بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الكبار مثل The New York Times، وBBC، وABC News. تعد الترجمات من مقاطع الفيديو التابعة لشركة Engadget أيضًا جزءًا من مجموعة البيانات.
نشر براونلي على موقع X: "لقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاص بها من عدة شركات". وأضاف: "قامت إحدى هذه الشركات باستخلاص الكثير من البيانات/النصوص من مقاطع الفيديو على موقع YouTube، بما في ذلك مقاطع الفيديو الخاصة بي". "ستكون هذه مشكلة متطورة لفترة طويلة."
صرح متحدث باسم Google لـ Engadget أن التعليقات السابقة التي أدلى بها الرئيس التنفيذي لشركة YouTube، نيل موهان، والتي قال فيها إن الشركات التي تستخدم بيانات YouTube لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط وخدمة المنصة لا تزال قائمة. ولم تستجب شركات Apple وNVIDIA وAnthropic وEleutherAI لطلب التعليق من Engadget.
حتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة لتدريب نماذجها. في وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة آبل لفشلها في الكشف عن مصدر بيانات التدريب الخاصة بشركة Apple Intelligence، وهي الشركة التي تدور حول الذكاء الاصطناعي التوليدي القادم إلى ملايين أجهزة Apple هذا العام.
يُعد موقع YouTube، وهو أكبر مستودع لمقاطع الفيديو في العالم، على وجه الخصوص، منجم ذهب ليس فقط للنصوص الصوتية ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي. في وقت سابق من هذا العام، تهربت ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، من أسئلة صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو YouTube لتدريب Sora، أداة توليد الفيديو المرتقبة باستخدام الذكاء الاصطناعي في OpenAI. وقال موراتي في ذلك الوقت: "لن أخوض في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة للعامة أو بيانات مرخصة". قال الرئيس التنفيذي لشركة Alphabet، ساندر بيتشاي، أيضًا إن الشركات التي تستخدم البيانات من YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها ستنتهك شروط خدمة النظام الأساسي.
إذا كنت تريد معرفة ما إذا كانت الترجمات من مقاطع الفيديو الخاصة بك على YouTube أو من قنواتك المفضلة جزءًا من مجموعة البيانات، فتوجه إلى أداة البحث في Proof News.
المصدر: بوابة الوفد
كلمات دلالية: لتدریب نماذج الذکاء الاصطناعی مجموعة البیانات مقاطع الفیدیو من مقاطع
إقرأ أيضاً:
إيران.. إطلاق منصة وطنية لـ«الذكاء الاصطناعي»
بجهود 100 باحث إيراني، كسفت طهران، اليوم السبت، “عن النسخة الأولية لمنصة “الذكاء الاصطناعي” الوطنية (الإصدار 3.0)”.
وأفادت وكالة مهر للأنباء، “أنه أُقيمت مراسم إطلاق منصة “الذكاء الاصطناعي الوطنية مفتوحة المصدر” في مركز المؤتمرات الدولية “رايزن”.
وأعرب الدكتور هرمزي نجاد، مدير الشؤون البحثية في الجامعة ومدير مشروع المنصة، “عن شكره لفريق تطوير هذه المنصة الذي يضم حوالي 100 شخص من الطلاب والباحثين بعد الدكتوراه والمطورين الذين انضموا إلينا من الجامعة”.
وأشار هرمزي نجاد، “إلى أهمية هذا المشروع، مقدماً شكره الخاص لـ 15 من أعضاء هيئة التدريس الذين شاركوا بشكل مباشر في هذا المشروع، كما أعرب عن تقديره للدكتور أفشين، نائب رئيس الجمهورية للشؤون العلمية، الذي كان له دور بارز في دعم هذا المجال”.
وأكد هرمزي نجاد، الذي يدير الشؤون البحثية في الجامعة منذ ثماني سنوات، أن “التركيز على مجال استراتيجي مثل الذكاء الاصطناعي لم يكن بهذا المستوى من قبل في البلاد”.
وأعرب عن تفاؤله “بأن جميع الباحثين والأكاديميين والشركات المعنية في هذا المجال سيستفيدون بشكل كبير من هذه المنصة قريباً”.
هذا “وتُعد هذه المنصة مشروعا تقنيا وطنيا تم تطويره باستخدام خبرات الأساتذة المحليين، وتهدف إلى توفير بنية تحتية متكاملة لتحليل البيانات وتطوير تطبيقات الذكاء الاصطناعي، وفق الخطط الاستراتيجية للبلاد”.
ووفقا لوكالة الأنباء الإيرانية “إيرنا”، أكد حسين أسدي، مدير مركز المعالجة السريعة، أن “المنصة تعتمد على تقنيات مفتوحة المصدر مع تحسينات محلية، كما تم تطوير وحداتها الإلكترونية بالكامل داخل البلاد لضمان الأمان والاستقلالية”.
وأوضح أسدي، “أنه لم يتم استخدام أي واجهات برمجية خارجية (APIs)، ما يضمن استمرارية عمل المنصة حتى في حال انقطاع الإنترنت بالبلاد بالكامل”.
وأشار أسدي، “إلى أن المنصة تتميز بسرعة التطوير وانخفاض التكلفة وقابليتها للتوسع، مع توقعات بإكمال الإصدار النهائي، بحلول سبتمبر2025”.