Nvidia تطور نموذج ذكاء اصطناعي جديد لتوليد الأصوات بناءً على النصوص
تاريخ النشر: 27th, November 2024 GMT
نوفمبر 27, 2024آخر تحديث: نوفمبر 27, 2024
المستقلة/- أعلنت شركة Nvidia عن تطوير نموذج ذكاء اصطناعي مبتكر يُدعى “Fugatto”، وهو قادر على توليد الأصوات المختلفة استنادًا إلى البيانات النصية التي يقدمها المستخدم. ويعد هذا النموذج خطوة كبيرة نحو تحويل الذكاء الاصطناعي ليشمل جوانب جديدة في صناعة الصوت والموسيقى.
“Fugatto” هو اختصار لـ”Foundational Generative Audio Transformer Opus”، ويعمل على إنشاء أصوات موسيقية وصوتية استنادًا إلى أوصاف نصية من المستخدم. يمكن للنموذج الجديد توليد مقطوعات موسيقية كاملة استنادًا إلى كلمات الأغاني، أو حتى إزالة أصوات معينة من الأغاني، مما يسمح للمستخدم بتخصيص الموسيقى بطريقة جديدة.
القدرات المتطورة للنموذجمن أبرز ميزات “Fugatto” قدرته على توليد أصوات جديدة شبيهة بأصوات الآلات الموسيقية. بالإضافة إلى توليد الأصوات، يمكن للنموذج أيضًا العمل على تحسين الأصوات الحالية وتعديلها، ما يجعله أداة قوية للعديد من الصناعات. على سبيل المثال، يمكن لمطوري ألعاب الفيديو ومصممي الفيديوهات الاستفادة من هذه التقنية لإضافة مؤثرات صوتية مميزة وفريدة إلى مشاريعهم.
ماذا قال المسؤولون في Nvidia؟وفي تصريحات لرئيس أبحاث الصوت التطبيقية في Nvidia، رافئيل فالي، أكد أن “Fugatto” يمثل الخطوة الأولى نحو تطوير ذكاء اصطناعي قادر على توليد وفهم الأصوات كما يفعل البشر. وأضاف أن الهدف من النموذج هو تقديم أداة تسهم في تحسين إنتاج الصوت وتوفير إمكانيات مبتكرة لصناعة الصوت والترفيه.
التطبيقات المستقبليةيُتوقع أن يغير “Fugatto” الطريقة التي يتم بها إنتاج الصوت في مختلف الصناعات. من الألعاب إلى صناعة السينما والموسيقى، سيسهم هذا النموذج في تسريع الإنتاج وتوسيع نطاق الإمكانيات الصوتية. كما سيوفر أيضًا خيارات تخصيص دقيقة للمستخدمين لإنشاء تجارب صوتية مبتكرة تلبي احتياجاتهم الخاصة.
المصدر: وكالة الصحافة المستقلة
إقرأ أيضاً:
شات جي بي تي تحت المجهر.. ما نقاط ضعفه؟
شهدت السنوات الأخيرة تطورا كبيرا في مجال الذكاء الاصطناعي، وخاصة في النماذج اللغوية الكبيرة القادرة على توليد نصوص تبدو طبيعية.
ومنذ إطلاقه للجمهور في أواخر نوفمبر/تشرين الثاني 2022، شهد "شات جي بي تي" ارتفاعا كبيرا في شعبيته.
ويضم روبوت الدردشة حاليا أكثر من 100 مليون مستخدم، ويتميز بإمكانية إجراء محادثات شبيهة بالمحادثات البشرية مع المستخدمين، والإجابة بسرعة عن الأسئلة أو المساعدة في المهام.
ولا يقتصر دوره على الاستجابة بلغات متعددة، بل يستطيع أيضا ترجمة اللغات، وتأليف الأغاني، والإجابة عن أسئلة البحث، وحتى كتابة التعليمات البرمجية.
ولكن بالرغم من قدراته المتقدمة، فإنه ليس خاليا من القيود. وكما هو الحال مع أي تقنية ذكاء اصطناعي، يعاني "شات جي بي تي" من بعض نقاط الضعف والتحديات التي قد تؤثر في أدائه ودقته.
تُعد دقة البيانات من أهم مشكلات "شات جي بي تي"، وتتضح هذه المشكلات في النسخة المجانية. ويقدم النموذج نتائج دقيقة في الغالب، إلا أنه في حالات نادرة، قد تتعطل خوارزميات الذكاء الاصطناعي.
الإجابات المتحيزةيعتمد "شات جي بي تي" على البيانات التي تدرب عليها المأخوذة من الإنترنت، والتي قد تحتوي على تحيزات موجودة في العالم الحقيقي.
إعلانونتيجة لذلك، قد يعكس النموذج هذه التحيزات في إجاباته، سواء كانت تحيزات عرقية أو جنسية أو سياسية. ولا يمتلك النموذج القدرة على تصحيح نفسه أو التعرف على التحيزات الموجودة في إجاباته، بسبب عدم وجود آلية تصحيح تلقائية.
وقد يميل النموذج إلى تعزيز الصور النمطية الجنسية، مثل افتراض أن الممرضات إناث أو أن المهندسين ذكور.
المنطق السليميواجه "شات جي بي تي" مشكلات في المنطق والاستدلال. ويؤدي هذا إلى ردود سليمة لغويا، ولكنها لا تتعلق بالطلب أو لا معنى لها. وتتلخص المشكلة في حقيقة أن النموذج يقدم فقط المعلومات المنطقية فيما يتعلق بطلبات معينة. ويحاكي النموذج الكلام البشري، ولكن ليس الاستدلال أو الفطرة السليمة أو المنطق.
نقص المعلومات المتعمقةبسبب محدودية المعرفة في "شات جي بي تي"، لا تُقدم النتائج معلومات متعمقة، وهو أحد قيود النموذج. وتحصل غالبا على معلومات غير كاملة أو إجابات غير ذات صلة. وعندما تطلب إجابة مفصلة، فإنك تحصل على ملخص. وفي بعض الأحيان، قد تحتوي هذه الملخصات على معلومات خاطئة.
المخاوف الأخلاقيةلا يتبع "شات جي بي تي" المبادئ الأخلاقية نفسها التي يتبعها البشر، مما يؤدي أحيانا إلى إنتاج محتوى عنصري أو جنسي. ويجيب "شات جي بي تي" على الأسئلة، لكنه يفتقر إلى الفهم الجيد لكيفية عمل المجتمع والمعايير التي يتبعها.
وبالإضافة إلى إنتاجه لمعلومات تمييزية، يواجه "شات جي بي تي" صعوبة في تحديد المصادر ذات المصداقية عند مواجهة معلومات متضاربة.
ينتج "شات جي بي تي" ردودا مفصلة وصحيحة من الناحية التقنية، إلا أنه يواجه صعوبة في اتباع بعض قواعد اللغة. وعند معالجة معلومات معقدة أو متخصصة، حيث تكون الدقة أمرا بالغ الأهمية، قد تظهر هذه المشكلة بصورة متكررة. وينتج عن ذلك أخطاء مطبعية ونحوية ومشكلات أخرى تؤثر في جودة النصوص.
إعلانويزداد هذا القصور وضوحا عندما يضطر "شات جي بي تي" إلى إنشاء جمل طويلة ذات تراكيب معقدة.
الردود غير الكاملةيواجه "شات جي بي تي" صعوبة في إنتاج الردود الطويلة، مما يؤدي إلى إجابات غير كاملة، وهذا أحد القيود الشائعة في النموذج. وإن طلبت من النموذج كتابة مقال طويل، فإنك قد تجده لم يكمل المهمة وتوقف فجأة عن توليد النصوص بعد كتابة ثلث المقال فقط. وبالرغم من إمكانية جعله يكتب بعدد كلمات محدد، فإن الردود غالبا ما تكرر النقاط السابقة ما لم يطلب منه ذلك.
الإبداعيواجه "شات جي بي تي" صعوبة في جعل ردوده إبداعية. ووجدت دراسة من معهد ماساتشوستس للتكنولوجيا أن الافتقار إلى الإبداع بطريقة إنسانية هو أحد التحديات التي تواجه نموذج الذكاء الاصطناعي.
ولا يستطيع "شات جي بي تي" التفكير خارج الصندوق، كما تعيد المخرجات الإبداعية تجميع أنماط بيانات التدريب.
فهم السياقيعتمد "شات جي بي تي" على تحليل الأنماط الإحصائية في البيانات التي تدرب عليها، ولكنه لا يمتلك فهما حقيقيا للمعاني العميقة أو العلاقات السببية بين الأحداث كما يفهم البشر.
ويظهر هذا الضعف بوضوح عند التعامل مع السياقات المعقدة أو المتداخلة، مثل النقاشات الفلسفية، والتحليلات التاريخية، أو حتى التفاعلات الاجتماعية المعقدة.
ولا يمتلك "شات جي بي تي" القدرة على فهم السياقات الثقافية أو الاجتماعية العميقة، كما لا يمتلك القدرة على فهم المشاعر أو النوايا البشرية.
وعند التعامل مع نصوص معقدة تتطلب استنتاجات منطقية متعددة المستويات، غالبا ما يقدم "شات جي بي تي" إجابات سطحية أو غير دقيقة، وقد يقدم في بعض الأحيان معلومات خاطئة أو غير دقيقة. كما أنه غير قادر على فهم السياقات المحددة مثل البشر، مثل السخرية أو الفكاهة أو المفارقة.
اللغات المتعددةينتج "شات جي بي تي" محتوى بأكثر من 80 لغة، ولكن هناك حدا لقدراته فيما يتعلق باللغات المتعددة. وعند التبديل بين اللغات أثناء المحادثات، فإنه يستغرق بعض الوقت للتكيف. وقد تتأثر قدرته على الفهم، مما يجعل من الصعب متابعة الاستجابات.
إعلانقد تكون دقة الإجابات أقل في اللغات التي تحتوي على بيانات تدريبية محدودة، بسبب عدم دقته فيما يتعلق باللغات النادرة. وقد يواجه النموذج صعوبة في تفسير اللهجات المختلفة مقارنة باللغة الرسمية.
وعند تحويل النصوص بين اللغات، قد ينتج عنه ترجمة غير دقيقة أو غير طبيعية، لأن جودة استجاباته تعتمد على كمية بيانات التدريب.
يعتمد "شات جي بي تي" على البيانات التي تدرب عليها حتى تاريخ معين، مما يجعله غير مدرك للأحداث الجارية، ولا يستطيع مناقشتها أو تقديم توقعات جوية أو إخبارك بأسعار الأسهم الحالية أو التفاعل مع الأخبار العاجلة أو التطورات الحديثة.
ولا يتمتع "شات جي بي تي" بوصول مباشر إلى الإنترنت، ولا يستطيع معالجة البيانات وإنتاج الإجابات إلا من خلال اتصال الإنترنت.
ويعني ذلك أنه لا يملك إجابات عن المعلومات اللحظية. وقد تكون المعلومات التي يقدمها النموذج قديمة أو غير دقيقة في المجالات السريعة التطور، مثل التكنولوجيا أو الطب.
الاستجابات غير العاطفيةلا يستطيع "شات جي بي تي" التعبير عن المشاعر، حيث يحاكي الكلام البشري دون أن يستطيع فهم كيفية عمل الدماغ البشري. ويقدم لك النموذج إجابات بدون مشاعر، ويفتقر إلى الذكاء العاطفي، وبالتالي لا يمكنه الاستجابة للتجارب أو المواقف العاطفية المعقدة. وتستطيع ملاحظة ذلك في المواقف التي تتطلب تقديم الدعم العاطفي أو المساعدة في إدارة الأزمات.
المهام المتعددةمن عيوب "شات جي بي تي" عدم قدرته على أداء المهام المتعددة. كما أنه لا يجري مهام مثل الحسابات وكتابة مقال بشكل متتابع. ويعني هذا أنه عند تقديم طلبات متعددة معا، لا يستطيع "شات جي بي تي" معالجتها، حيث يتعامل مع كل طلب بصفته طلبا منفصلا، ويفتقر إلى ذاكرة عاملة متكاملة لإدارة المهام المختلفة.
الضبط الدقيقعند استخدامه من أجل بعض الحالات المحددة للغاية، فإن نموذج الذكاء الاصطناعي بحاجة إلى الضبط، أي تدريبه عبر مجموعة من البيانات من أجل الحصول على النتائج المرجوة وتحسينه للمستقبل.
إعلانوهناك حاجة إلى أن تكون محددا ودقيقا بشأن المطالبات واتباع المطالبات التفصيلية أو المتسلسلة للحصول على النتائج المرجوة.
ختاما، بالرغم من القيود العديدة التي يواجهها "شات جي بي تي"، فإنها لا تقلل من أهمية الذكاء الاصطناعي، بل تشير إلى الحاجة إلى تطوير "شات جي بي تي" من أجل تحسينه وزيادة دقته وموضوعيته. وفي المستقبل، قد تساعد التطورات في تقنيات الذكاء الاصطناعي في التغلب على هذه القيود وتحسين أدائه.