اكتشاف صور اعتداء جنسي على أطفال ببيانات تدريبية على الذكاء الاصطناعي
تاريخ النشر: 22nd, December 2023 GMT
(CNN)-- قال باحثون في مرصد ستانفورد للإنترنت في دراسة نشرت في وقت سابق من هذا الأسبوع إنه تم العثور على أكثر من ألف صورة لمواد الاعتداء الجنسي على الأطفال في مجموعة بيانات عامة ضخمة تستخدم لتدريب نماذج توليد الصور الشهيرة المعتمدة على الذكاء الاصطناعي.
وجود هذه الصور في بيانات التدريب قد يسهل على نماذج الذكاء الاصطناعي إنشاء صور جديدة وواقعية يتم إنشاؤها بواسطة الذكاء الاصطناعي لمحتوى إساءة معاملة الأطفال، أو صور “تزييف عميق” للأطفال الذين يتم استغلالهم.
تثير النتائج أيضًا عددًا كبيرًا من المخاوف الجديدة المحيطة بالطبيعة الغامضة لبيانات التدريب التي تعمل كأساس لمجموعة جديدة من أدوات الذكاء الاصطناعي القوية.
تحتوي مجموعة البيانات الضخمة التي فحصها باحثو جامعة ستانفورد، والمعروفة باسم LAION 5B، على مليارات الصور التي تم استخراجها من الإنترنت، بما في ذلك من وسائل التواصل الاجتماعي ومواقع الترفيه للبالغين.
ومن بين أكثر من 5 مليارات صورة في مجموعة البيانات، قال باحثو جامعة ستانفورد إنهم حددوا ما لا يقل عن 1008 حالات من مواد الاعتداء الجنسي على الأطفال.
وقالت LAION، المنظمة الألمانية غير الربحية التي تقف وراء مجموعة البيانات، في بيان على موقعها على الإنترنت إن لديها "سياسة عدم التسامح مطلقًا مع المحتوى غير القانوني".
وقالت المنظمة إنها تلقت نسخة من التقرير من جامعة ستانفورد، وهي بصدد تقييم النتائج التي توصل إليها. كما أشارت إلى أن مجموعات البيانات تمر عبر "أدوات تصفية مكثفة" للتأكد من أنها آمنة وتمتثل للقانون.
وأضافت المنظمة: "بسبب قدر كبير من الحذر، قمنا بإيقاف تشغيل LAION 5B"، قائلة إنها تعمل مع مؤسسة مراقبة الإنترنت ومقرها المملكة المتحدة "للعثور على الروابط التي قد لا تزال تشير إلى محتوى مشبوه وربما غير قانوني وإزالتها".
وقالت LAION إنها تخطط لإكمال مراجعة السلامة الكاملة لـ LAION 5B بحلول النصف الثاني من شهر يناير وتخطط لإعادة نشر مجموعة البيانات في ذلك الوقت.
وفي الوقت نفسه، قال فريق ستانفورد إن إزالة الصور المحددة جارية حاليًا بعد أن أبلغ الباحثون عن عناوين روابط الصور إلى المركز الوطني للأطفال المفقودين والمستغلين والمركز الكندي لحماية الطفل.
في التقرير، قال الباحثون إنه بينما حاول مطورو LAION 5B تصفية محتوى صريح معين، فقد تم تدريب نسخة سابقة من نموذج توليد الصور الشهير Stable Diffusion في النهاية على "مجموعة واسعة من المحتوى، سواء كان صريحًا أو غير ذلك".
وقال متحدث باسم Stability AI، الشركة الناشئة التي تتخذ من لندن مقراً لها والتي تقف خلف Stable Diffusion، لشبكة CNN في بيان إن هذا الإصدار السابق، Stable Diffusion 1.5، تم إصداره من قبل شركة منفصلة وليس بواسطة Stability AI.
وقد لاحظ الباحثون في جامعة ستانفورد أن Stable Diffusion 2.0 قام بتصفية النتائج التي اعتبرت غير آمنة إلى حد كبير، ونتيجة لذلك لم يكن لديه سوى القليل من المواد الواضحة في مجموعة التدريب.
ذكر تقرير ستانفورد أن مجموعات البيانات الضخمة على نطاق الويب تمثل مشكلة كبيرة لعدد من الأسباب، حتى مع محاولات التصفية الآمنة، بسبب احتمال تضمينها ليس فقط لمواد الاعتداء الجنسي على الأطفال ولكن أيضًا بسبب مخاوف الخصوصية وحقوق الطبع والنشر الأخرى التي تنشأ من استخدامها.
وأوصى التقرير بأن تقتصر مجموعات البيانات هذه على "إعدادات البحث فقط" وأنه يجب استخدام "مجموعات البيانات الأكثر تنظيمًا وذات المصادر الجيدة" فقط للنماذج الموزعة بشكل عام.
المصدر: CNN Arabic
كلمات دلالية: اعتداءات جنسية تكنولوجيا الذکاء الاصطناعی مجموعة البیانات جامعة ستانفورد
إقرأ أيضاً:
الذكاء الاصطناعي يوجه متابعة مرضى نقص الانتباه
قام باحثون من جامعة ستانفورد ببناء أداة ذكاء اصطناعي يمكنها قراءة آلاف الملاحظات الطبية في السجلات الطبية الإلكترونية، واكتشاف الاتجاهات، وتوفير المعلومات التي يأمل الأطباء والباحثون أن تعمل على تحسين الرعاية.
وتم تصميم أداة الذكاء الاصطناعي في طب الأطفال، لمعرفة ما إذا كان الأطفال المصابون باضطراب نقص الانتباه وفرط النشاط قد تلقوا رعاية متابعة مناسبة بعد وصف أدوية جديدة لهم.
واستخدم فريق البحث رؤى الأداة لتحديد التكتيكات التي يمكن أن تحسن كيفية متابعة الأطباء للمرضى وأسرهم.
معلومات لا يكتشفها الأطباءووفق "مديكال إكسبريس"، من تحليل الذكاء الاصطناعي، التقط الباحثون معلومات لم يكن من الممكن أن يكتشفها الأطباء لولا ذلك.
مثلاً، رأى الذكاء الاصطناعي أن بعض الممارسات الطبية للأطفال كانت تسأل كثيراً عن الآثار الجانبية للأدوية أثناء المحادثات الهاتفية مع والدي المرضى، بينما لم تفعل الممارسات الأخرى ذلك.
وقال الباحثون: "هذا شيء لن تتمكن أبداً من اكتشافه من دون قراءة آلاف الصفحات، ولن يجلس أي إنسان ويفعل ذلك".
تحديد الثغراتوأضافوا: "هذا النموذج من الذكاء الاصطناعي يمكّننا من تحديد بعض الثغرات في إدارة اضطراب نقص الانتباه وفرط النشاط".
وأشار الباحثون إلى أن أداة الذكاء الاصطناعي ربما فاتتها بعض الاستفسارات حول الآثار الجانبية للأدوية في تحليلها، لأن بعض المحادثات حول هذه الالآثار ربما لم يتم تسجيلها في السجلات الطبية للمرضى، كما تلقى بعض المرضى رعاية متخصصة مع طبيب نفسي لم يتم تتبعها في السجلات الطبية المستخدمة في هذه الدراسة.
وتعتمد حوالي 80% من المعلومات في أي سجل طبي على الملاحظات التي يكتبها الأطباء حول رعاية المريض.
وعلى الرغم من أن هذه الملاحظات مفيدة للإنسان التالي الذي يقرأ مخطط المريض، إلا أن جملها الحرة يصعب تحليلها بشكل جماعي. ويجب تصنيف هذه المعلومات الأقل تنظيماً قبل استخدامها.
واستخدمت الدراسة السجلات الطبية لـ 1201 طفل تتراوح أعمارهم بين 6 و11 عاماً، وكانوا مرضى في 11 عيادة رعاية أولية للأطفال في نفس شبكة الرعاية الصحية، ولديهم وصفة طبية لدواء واحد على الأقل لعلاج اضطراب فرط الحركة ونقص الانتباه.
وقد يكون لهذه الأدوية آثار جانبية مدمرة، مثل قمع شهية الطفل، لذلك من المهم للأطباء الاستفسار عن الآثار الجانبية عندما يستخدم المرضى الأدوية لأول مرة وتعديل الجرعات حسب الضرورة.