ChatGPT يدعم الدردشات الصوتية والصور
تاريخ النشر: 25th, September 2023 GMT
يحصل ChatGPT على بعض التحديثات المهمة التي ستمكن برنامج الدردشة الآلي من التعامل مع الأوامر الصوتية والاستعلامات المستندة إلى الصور. سيتمكن المستخدمون من إجراء محادثة صوتية مع ChatGPT على Android وiOS وإدخال الصور فيها على جميع الأنظمة الأساسية. يقوم OpenAI بطرح الميزات الآن. وستكون متاحة لمستخدمي Plus وEnterprise في البداية، وسيتمكن الأشخاص الآخرون من الوصول إلى الميزات المستندة إلى الصور لاحقًا.
ستحتاج إلى الاشتراك في المحادثات الصوتية في تطبيق ChatGPT (انتقل إلى الإعدادات ثم الميزات الجديدة) إذا كنت ترغب في تجربتها. ومن خلال النقر على زر الميكروفون، ستتمكن من الاختيار من بين خمسة أصوات مختلفة.
تقول OpenAI إن المحادثات الصوتية ذهابًا وإيابًا مدعومة بنموذج جديد لتحويل النص إلى كلام يمكنه إنشاء "صوت يشبه الإنسان من نص فقط وبضع ثوانٍ من عينة الكلام". لقد خلقت الأصوات الخمسة بمساعدة ممثلين محترفين. وبالذهاب في الاتجاه الآخر، يقوم نظام التعرف على الكلام Whisper الخاص بالشركة بتحويل الكلمات المنطوقة للمستخدم إلى نص.
الوظائف القائمة على الصور مثيرة للاهتمام أيضًا. يقول OpenAI أنه يمكنك، على سبيل المثال، عرض صورة للشواية على برنامج الدردشة الآلي والسؤال عن سبب عدم تشغيلها، أو جعله يساعد في التخطيط لوجبة بناءً على لقطة لما يوجد في ثلاجتك أو مطالبته بحل مسألة رياضية تريدها. التقاط صورة ل. وفي الواقع، سلطت مايكروسوفت الضوء على قدرة Copilot AI على حل المسائل الرياضية في نظام التشغيل Windows خلال حدث Surface الأسبوع الماضي.
يستخدم OpenAI GPT-3.5 وGPT-4 لتشغيل ميزات التعرف على الصور. لاستخدام وظائف ChatGPT المستندة إلى الصور، انقر فوق زر الصورة (ستحتاج إلى النقر فوق زر علامة الجمع أولاً على نظام iOS أو Android) لالتقاط صورة أو اختيار صورة موجودة على جهازك. يمكنك سؤال ChatGPT عن صور متعددة واستخدام أداة الرسم للتركيز على جزء معين من الصورة.
وفي منشور بالمدونة يعلن عن التحديثات، أشارت OpenAI إلى احتمال حدوث ضرر. من الممكن أن يقلد الممثلون السيئون أصوات الشخصيات العامة (والأشخاص العاديين) وربما يرتكبون الاحتيال. ولهذا السبب تركز OpenAI على المحادثات الصوتية ChatGPT مع هذه التكنولوجيا والعمل مع شركاء مختارين في حالات استخدام محدودة أخرى (المزيد حول ذلك بعد قليل).
أما بالنسبة للصور، فقد عملت OpenAI مع Be My Eyes، وهو تطبيق مجاني يمكن للأشخاص المكفوفين وضعاف البصر استخدامه لمساعدتهم على فهم محيطهم بشكل أفضل بفضل المتطوعين الذين ينضمون إلى مكالمات الفيديو معهم. قال OpenAI: "أخبرنا المستخدمون أنهم يجدون أنه من المفيد إجراء محادثات عامة حول الصور التي تحتوي على أشخاص في الخلفية، مثل ظهور شخص ما على التلفزيون أثناء محاولتك معرفة إعدادات جهاز التحكم عن بعد". وأشارت الشركة إلى أنها قيدت أيضًا كيفية قيام ChatGPT بالتحليل والإدلاء ببيانات مباشرة حول الأشخاص الذين يظهرون في الصور، "نظرًا لأن ChatGPT ليس دقيقًا دائمًا ويجب أن تحترم هذه الأنظمة خصوصية الأفراد". وقد نشرت ورقة بحثية عن خصائص السلامة للوظيفة القائمة على الصور، والتي أطلقت عليها اسم GPT-4 مع الرؤية.
يعتبر ChatGPT أكثر فعالية في فهم النص الإنجليزي في الصور من اللغات الأخرى. تقول OpenAI إن أداء روبوت الدردشة "ضعيف" في اللغات الأخرى في الوقت الحالي، خاصة عندما يتعلق الأمر بتلك التي تستخدم نصوصًا غير رومانية. على هذا النحو، يقترح أن يتجنب المستخدمون غير الناطقين باللغة الإنجليزية استخدام ChatGPT للتعامل مع النص في الصور في الوقت الحالي.
وفي الوقت نفسه، تعاونت Spotify مع OpenAI لاستخدام التكنولوجيا الصوتية لغرض مثير للاهتمام. أعلن الأول عن تجربة تجريبية لأداة تسمى الترجمة الصوتية لمنشئي البث الصوتي. يمكن أن يؤدي ذلك إلى ترجمة ملفات البودكاست إلى لغات مختلفة باستخدام أصوات الأشخاص الذين يظهرون في العرض. يقول Spotify أن الأداة يمكنها الاحتفاظ بخصائص الكلام الخاصة بالسماعة الأصلية بعد التحويل أصواتهم إلى لغات أخرى.
في البداية، يقوم Spotify بتحويل عروض مختارة باللغة الإنجليزية إلى بضع لغات. الإصدارات الإسبانية من بعض حلقات Armchair Expert وThe Diary of a CEO مع ستيفن بارتليت متاحة الآن، وستتبعها نسخ فرنسية وألمانية.
المصدر: بوابة الوفد
إقرأ أيضاً:
OpenAI تجمع 40 مليار دولار وقيمتها تقفز إلى 300 مليار دولار
أعلنت OpenAI "أوبن إيه آي" أنّها جمعت 40 مليار دولار خلال جولة تمويلية جديدة، مما رفع قيمة الشركة المُصنّعة لتطبيق ChatGPT إلى 300 مليار دولار، وهي أكبر جولة تمويلية لشركة ناشئة على الإطلاق.
وقالت الشركة ومقرّها سان فرانسيسكو في بيان على موقعها الإلكتروني إنّ هذا التمويل يأتي بالشراكة مع عملاق الاستثمار الياباني "سوفت بنك" وسوف "يمكنّنا من دفع آفاق أبحاث الذكاء الاصطناعي إلى حدود أبعد".
وأضافت: "سيساعدنا التمويل على مواصلة بناء أنظمة ذكاء اصطناعي تُحفّز الاكتشاف العلمي، وتُمكّن التعليم المُخصّص، وتُعزّز الإبداع البشري، وتمهّد الطريق نحو الذكاء الاصطناعي العام (AGI) الذي سيُفيد البشرية جمعاء".
يشير مصطلح AGI إلى منصة حوسبة ذات ذكاء يُضاهي ذكاء الإنسان.
قالت سوفت بنك في بيان إنها تسعى لتحقيق الذكاء الاصطناعي الفائق (ASI) الذي يتجاوز الذكاء البشري، وإن أوبن أيه آي هي الشريك الأقرب لتحقيق هذا الهدف.
وأضافت: "تقدّم نماذج الذكاء الاصطناعي الخاصة بـ "أوبن أيه آي" المفتاح لتحقيق الذكاء العام الاصطناعي (AGI) والذكاء الاصطناعي الفائق (ASI)، ويتطلب ذلك قوة حوسبة هائلة"، موضحةً دوافعها للاستثمار الأخير في الشركة.
وستضخ سوفت بنك 10 مليارات دولار في أوبن أيه آي في البداية، مع استثمار 30 مليار دولار إضافية بحلول نهاية هذا العام، وفقاً لشروط معينة.
وتخطط أوبن أيه آي لتوسيع بنيتها التحتية و"تقديم أدوات أقوى بشكل متزايد لـ 500 مليون مستخدم لـ ChatGPT أسبوعياً.
يذكر أن مجلس إدارة "أوبن إيه آي" كان قد رفض في منتصف فبراير الماضي بالإجماع عرضا قدّمه إيلون ماسك لشراء الشركة لقاء 97,4 مليار دولار.