الذكاء الاصطناعي من Google DeepMind ينشأ مقاطع صوتية للفيديو
تاريخ النشر: 18th, June 2024 GMT
يعمل مختبر الذكاء الاصطناعي DeepMind التابع لشركة Google على تقنية جديدة يمكنها إنشاء مقاطع صوتية، وحتى حوار، لتتماشى مع مقاطع الفيديو. شارك المختبر التقدم الذي أحرزه في مشروع تقنية تحويل الفيديو إلى الصوت (V2A)، والذي يمكن إقرانه مع Google Veo وأدوات إنشاء الفيديو الأخرى مثل Sora من OpenAI.
في منشور مدونته، يوضح فريق DeepMind أن النظام يمكنه فهم وحدات البكسل الأولية ودمج تلك المعلومات مع المطالبات النصية لإنشاء مؤثرات صوتية لما يحدث على الشاشة.
قام باحثو DeepMind بتدريب التكنولوجيا على مقاطع الفيديو والتسجيلات الصوتية والتعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تحتوي على أوصاف تفصيلية للأصوات ونصوص الحوار.
وقالوا إنه من خلال القيام بذلك، تعلمت التكنولوجيا ربط أصوات معينة بالمشاهد المرئية. وكما لاحظ TechCrunch، فإن فريق DeepMind ليس أول من أطلق أداة ذكاء اصطناعي يمكنها إنشاء مؤثرات صوتية - فقد أصدرت ElevenLabs واحدة مؤخرًا أيضًا - ولن تكون الأخيرة.
يكتب الفريق: "يتميز بحثنا عن حلول تحويل الفيديو إلى الصوت الموجودة لأنه يمكنه فهم وحدات البكسل الأولية وإضافة مطالبة نصية أمر اختياري".
على الرغم من أن المطالبة النصية اختيارية، إلا أنه يمكن استخدامها لتشكيل المنتج النهائي وتحسينه بحيث يكون دقيقًا وواقعيًا قدر الإمكان. يمكنك إدخال مطالبات إيجابية لتوجيه الإخراج نحو إنشاء الأصوات التي تريدها، على سبيل المثال، أو مطالبات سلبية لتوجيهه بعيدًا عن الأصوات التي لا تريدها. في العينة أدناه، استخدم الفريق الموجه: "فيلم سينمائي، فيلم إثارة، فيلم رعب، موسيقى، توتر، أجواء، خطى على الخرسانة.
يعترف الباحثون أنهم ما زالوا يحاولون معالجة القيود الحالية لتقنية V2A الخاصة بهم، مثل الانخفاض في جودة الصوت الناتج الذي يمكن أن يحدث إذا كانت هناك تشوهات في الفيديو المصدر. كما أنهم ما زالوا يعملون على تحسين مزامنة الشفاه للحوار الذي تم إنشاؤه. بالإضافة إلى ذلك، تعهدوا بإخضاع التكنولوجيا "لتقييمات واختبارات صارمة للسلامة" قبل إطلاقها للعالم.
المصدر: بوابة الوفد
إقرأ أيضاً:
سحر Gemini.. الذكاء الاصطناعي لجوجل يزيل العلامات المائية من الصور
بدأت جوجل في توسيع نطاق تجربة ميزاتها الجديدة في نموذج الذكاء الاصطناعي "جيميني 2.0 فلاش"، حيث أصبح متاحًا الآن للمطورين في مختلف أنحاء العالم، لكن سرعان ما أثارت هذه الميزات قلقًا كبيرًا، خاصة بعدما اكتشف المستخدمون قدرتها على إزالة العلامات المائية من الصور بدقة.
يتمتع النموذج الجديد بقدرة فائقة على إنشاء الصور من خلال الأوامر النصية، بالإضافة إلى تعديل الصور بشكل تفاعلي.
جيميني 2.0 فلاشووفقًا لتقرير من موقع "TechCrunch"، فقد تم اكتشاف أن "جيميني 2.0 فلاش" قادر على إزالة العلامات المائية المعقدة مثل ختم "Getty Images"، مع ملء الفراغات في الصورة بعد إزالة العلامة.
الجدير بالذكر أن أدوات مشابهة مثل "Watermark Remover.io" تُستخدم بالفعل لإزالة العلامات المائية من صور بعض الشركات مثل "Shutterstock"، كما أن فريقًا بحثيًا في جوجل كان قد طوّر خوارزمية لإزالة العلامات المائية منذ عام 2017 لتسليط الضوء على الحاجة لحماية أقوى.
وعلى العكس من ذلك، فإن بعض أدوات الذكاء الاصطناعي الأخرى، مثل "GPT-4o" من OpenAI، ترفض تنفيذ مثل هذه الطلبات.
المثير للجدل أن "جيميني 2.0 فلاش" بعد إزالة العلامة المائية يضيف شعار مخصص يسمى "SynthID"، يشير إلى أن الصورة قد تم تعديلها باستخدام الذكاء الاصطناعي.
لكن من الممكن إزالة هذا الختم أيضًا باستخدام أدوات الذكاء الاصطناعي، كما رأينا سابقًا مع أداة مسح الأجسام الخاصة بسامسونج.
تتوفر بمنصة AI Studioإضافة إلى ذلك، أشار المستخدمون إلى أن النموذج الجديد قادر على إدراج صور لأشخاص معروفين مثل "إيلون ماسك" في الصور المعدلة، وهي ميزة غير متاحة في النموذج الكامل من "جيميني".
حاليًا، لا تتوفر هذه الميزات إلا للمطورين عبر منصة "AI Studio"، ما يعني أن هذه الأدوات ليست متاحة للجميع بعد، لكن غياب الضوابط والقيود يثير مخاوف جدية بشأن إساءة استخدامها.
وحتى الآن، لم تصدر جوجل أي تعليق رسمي حول وجود إجراءات حماية لمنع استخدام هذه الأدوات في إزالة العلامات المائية.