الذكاء الاصطناعي من Google DeepMind ينشأ مقاطع صوتية للفيديو
تاريخ النشر: 18th, June 2024 GMT
يعمل مختبر الذكاء الاصطناعي DeepMind التابع لشركة Google على تقنية جديدة يمكنها إنشاء مقاطع صوتية، وحتى حوار، لتتماشى مع مقاطع الفيديو. شارك المختبر التقدم الذي أحرزه في مشروع تقنية تحويل الفيديو إلى الصوت (V2A)، والذي يمكن إقرانه مع Google Veo وأدوات إنشاء الفيديو الأخرى مثل Sora من OpenAI.
في منشور مدونته، يوضح فريق DeepMind أن النظام يمكنه فهم وحدات البكسل الأولية ودمج تلك المعلومات مع المطالبات النصية لإنشاء مؤثرات صوتية لما يحدث على الشاشة.
قام باحثو DeepMind بتدريب التكنولوجيا على مقاطع الفيديو والتسجيلات الصوتية والتعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تحتوي على أوصاف تفصيلية للأصوات ونصوص الحوار.
وقالوا إنه من خلال القيام بذلك، تعلمت التكنولوجيا ربط أصوات معينة بالمشاهد المرئية. وكما لاحظ TechCrunch، فإن فريق DeepMind ليس أول من أطلق أداة ذكاء اصطناعي يمكنها إنشاء مؤثرات صوتية - فقد أصدرت ElevenLabs واحدة مؤخرًا أيضًا - ولن تكون الأخيرة.
يكتب الفريق: "يتميز بحثنا عن حلول تحويل الفيديو إلى الصوت الموجودة لأنه يمكنه فهم وحدات البكسل الأولية وإضافة مطالبة نصية أمر اختياري".
على الرغم من أن المطالبة النصية اختيارية، إلا أنه يمكن استخدامها لتشكيل المنتج النهائي وتحسينه بحيث يكون دقيقًا وواقعيًا قدر الإمكان. يمكنك إدخال مطالبات إيجابية لتوجيه الإخراج نحو إنشاء الأصوات التي تريدها، على سبيل المثال، أو مطالبات سلبية لتوجيهه بعيدًا عن الأصوات التي لا تريدها. في العينة أدناه، استخدم الفريق الموجه: "فيلم سينمائي، فيلم إثارة، فيلم رعب، موسيقى، توتر، أجواء، خطى على الخرسانة.
يعترف الباحثون أنهم ما زالوا يحاولون معالجة القيود الحالية لتقنية V2A الخاصة بهم، مثل الانخفاض في جودة الصوت الناتج الذي يمكن أن يحدث إذا كانت هناك تشوهات في الفيديو المصدر. كما أنهم ما زالوا يعملون على تحسين مزامنة الشفاه للحوار الذي تم إنشاؤه. بالإضافة إلى ذلك، تعهدوا بإخضاع التكنولوجيا "لتقييمات واختبارات صارمة للسلامة" قبل إطلاقها للعالم.
المصدر: بوابة الوفد
إقرأ أيضاً:
تشخيص الذكاء الاصطناعي يلقى قبولاً.. شرط عدم إخبار المرضى
أفادت دراسة جديدة بأن المرضى لا يمانعون عموماً في الحصول على ملاحظات مكتوبة بواسطة الذكاء الاصطناعي من عيادة طبيبهم، إلا إذا علموا أن الملاحظة جاءت من برنامج حاسوبي.
ملاحظات الذكاء الاصطناعي أكثر تعاطفاً مع المرضى
وكشف البحث، أن المرضى يميلون إلى تفضيل الملاحظات الطبية المكتوبة بواسطة الذكاء الاصطناعي على تلك التي يكتبها الأطباء، حيث سجلت هذه الملاحظات درجات أعلى في الرضا والفائدة والتعاطف.
ومع ذلك، انخفضت درجات المرضى عند علمهم بأن الذكاء الاصطناعي هو من كتب الملاحظة، بحسب "هيلث داي".
وقال فريق البحث من جامعة ديوك: "إن هذا التفضيل انخفض فقط، ولكنه لم يختف، عندما أُبلغ المرضى بأن الرسالة من إعداد الذكاء الاصطناعي".
الشفافيةوقالت الدكتورة أناندا شودري الباحثة الرئيسية: "هناك رغبة في الشفافية، ورغبة في رضا المرضى. إذا كشفنا عن الذكاء الاصطناعي، فماذا سنخسر؟ هذا ما تهدف دراستنا إلى قياسه".
وفي هذه الدراسة، قيم الباحثون استبيانات شارك فيها نحو 1500 مريض في النظام الطبي بجامعة ديوك.
وكانت المواضيع الـ 3 للملاحظات هي طلب تجديد وصفة طبية روتيني، وسؤال حول الآثار الجانبية للدواء، واحتمالية اكتشاف سرطان في فحص التصوير.
وُجِّهت الردود البشرية من فريق من الأطباء طُلب منهم كتابة ردود واقعية على كل سيناريو استبيان، بناءً على كيفية تواصلهم المعتاد مع المرضى.
وولَّد برنامج "تشات جي بي تي" ردود الذكاء الاصطناعي، والتي راجعها الأطباء المشاركون في الدراسة للتأكد من دقتها.
وقال الباحثون إن ملاحظات الذكاء الاصطناعي لم تتطلب سوى تغييرات طفيفة.
وأظهرت النتائج أن المرضى فضّلوا الرسائل التي صاغها الذكاء الاصطناعي بفارق متوسط قدره 0.3 نقطة على مقياس رضا من 5 نقاط.
كما سجلت ملاحظات الذكاء الاصطناعي نتائج أفضل في مدى فائدتها بمقدار 0.3 نقطة، وفي مدى تعاطفها مع المرضى بمقدار 0.4 نقطة.
ومع ذلك، انخفض مستوى الرضا لدى "تشات دي بي تي" مقارنةً بالأطباء عند إخبار المرضى بالرسالة التي كتبها الذكاء الاصطناعي، حيث سجل الذكاء الاصطناعي 0.1 نقطة أقل من الأطباء.