ChatGPT يدعم الدردشات الصوتية والصور
تاريخ النشر: 25th, September 2023 GMT
يحصل ChatGPT على بعض التحديثات المهمة التي ستمكن برنامج الدردشة الآلي من التعامل مع الأوامر الصوتية والاستعلامات المستندة إلى الصور. سيتمكن المستخدمون من إجراء محادثة صوتية مع ChatGPT على Android وiOS وإدخال الصور فيها على جميع الأنظمة الأساسية. يقوم OpenAI بطرح الميزات الآن. وستكون متاحة لمستخدمي Plus وEnterprise في البداية، وسيتمكن الأشخاص الآخرون من الوصول إلى الميزات المستندة إلى الصور لاحقًا.
ستحتاج إلى الاشتراك في المحادثات الصوتية في تطبيق ChatGPT (انتقل إلى الإعدادات ثم الميزات الجديدة) إذا كنت ترغب في تجربتها. ومن خلال النقر على زر الميكروفون، ستتمكن من الاختيار من بين خمسة أصوات مختلفة.
تقول OpenAI إن المحادثات الصوتية ذهابًا وإيابًا مدعومة بنموذج جديد لتحويل النص إلى كلام يمكنه إنشاء "صوت يشبه الإنسان من نص فقط وبضع ثوانٍ من عينة الكلام". لقد خلقت الأصوات الخمسة بمساعدة ممثلين محترفين. وبالذهاب في الاتجاه الآخر، يقوم نظام التعرف على الكلام Whisper الخاص بالشركة بتحويل الكلمات المنطوقة للمستخدم إلى نص.
الوظائف القائمة على الصور مثيرة للاهتمام أيضًا. يقول OpenAI أنه يمكنك، على سبيل المثال، عرض صورة للشواية على برنامج الدردشة الآلي والسؤال عن سبب عدم تشغيلها، أو جعله يساعد في التخطيط لوجبة بناءً على لقطة لما يوجد في ثلاجتك أو مطالبته بحل مسألة رياضية تريدها. التقاط صورة ل. وفي الواقع، سلطت مايكروسوفت الضوء على قدرة Copilot AI على حل المسائل الرياضية في نظام التشغيل Windows خلال حدث Surface الأسبوع الماضي.
يستخدم OpenAI GPT-3.5 وGPT-4 لتشغيل ميزات التعرف على الصور. لاستخدام وظائف ChatGPT المستندة إلى الصور، انقر فوق زر الصورة (ستحتاج إلى النقر فوق زر علامة الجمع أولاً على نظام iOS أو Android) لالتقاط صورة أو اختيار صورة موجودة على جهازك. يمكنك سؤال ChatGPT عن صور متعددة واستخدام أداة الرسم للتركيز على جزء معين من الصورة.
وفي منشور بالمدونة يعلن عن التحديثات، أشارت OpenAI إلى احتمال حدوث ضرر. من الممكن أن يقلد الممثلون السيئون أصوات الشخصيات العامة (والأشخاص العاديين) وربما يرتكبون الاحتيال. ولهذا السبب تركز OpenAI على المحادثات الصوتية ChatGPT مع هذه التكنولوجيا والعمل مع شركاء مختارين في حالات استخدام محدودة أخرى (المزيد حول ذلك بعد قليل).
أما بالنسبة للصور، فقد عملت OpenAI مع Be My Eyes، وهو تطبيق مجاني يمكن للأشخاص المكفوفين وضعاف البصر استخدامه لمساعدتهم على فهم محيطهم بشكل أفضل بفضل المتطوعين الذين ينضمون إلى مكالمات الفيديو معهم. قال OpenAI: "أخبرنا المستخدمون أنهم يجدون أنه من المفيد إجراء محادثات عامة حول الصور التي تحتوي على أشخاص في الخلفية، مثل ظهور شخص ما على التلفزيون أثناء محاولتك معرفة إعدادات جهاز التحكم عن بعد". وأشارت الشركة إلى أنها قيدت أيضًا كيفية قيام ChatGPT بالتحليل والإدلاء ببيانات مباشرة حول الأشخاص الذين يظهرون في الصور، "نظرًا لأن ChatGPT ليس دقيقًا دائمًا ويجب أن تحترم هذه الأنظمة خصوصية الأفراد". وقد نشرت ورقة بحثية عن خصائص السلامة للوظيفة القائمة على الصور، والتي أطلقت عليها اسم GPT-4 مع الرؤية.
يعتبر ChatGPT أكثر فعالية في فهم النص الإنجليزي في الصور من اللغات الأخرى. تقول OpenAI إن أداء روبوت الدردشة "ضعيف" في اللغات الأخرى في الوقت الحالي، خاصة عندما يتعلق الأمر بتلك التي تستخدم نصوصًا غير رومانية. على هذا النحو، يقترح أن يتجنب المستخدمون غير الناطقين باللغة الإنجليزية استخدام ChatGPT للتعامل مع النص في الصور في الوقت الحالي.
وفي الوقت نفسه، تعاونت Spotify مع OpenAI لاستخدام التكنولوجيا الصوتية لغرض مثير للاهتمام. أعلن الأول عن تجربة تجريبية لأداة تسمى الترجمة الصوتية لمنشئي البث الصوتي. يمكن أن يؤدي ذلك إلى ترجمة ملفات البودكاست إلى لغات مختلفة باستخدام أصوات الأشخاص الذين يظهرون في العرض. يقول Spotify أن الأداة يمكنها الاحتفاظ بخصائص الكلام الخاصة بالسماعة الأصلية بعد التحويل أصواتهم إلى لغات أخرى.
في البداية، يقوم Spotify بتحويل عروض مختارة باللغة الإنجليزية إلى بضع لغات. الإصدارات الإسبانية من بعض حلقات Armchair Expert وThe Diary of a CEO مع ستيفن بارتليت متاحة الآن، وستتبعها نسخ فرنسية وألمانية.
المصدر: بوابة الوفد
إقرأ أيضاً:
تشات جي بي تي يفاجئ مستخدمين بمناداتهم بأسمائهم.. أثار مخاوفهم
أثار روبوت الدردشة الشهير "تشات جي بي تي" (ChatGPT)، موجة من التساؤلات والقلق بين المستخدمين، بعدما لاحظ عدد منهم أنه بدأ يناديهم بأسمائهم الأولى أثناء المحادثات، رغم عدم تزويده بهذه المعلومات مسبقا، بحسب تقرير نشره موقع "تيك كرانش".
وأوضح التقرير أن بعض مستخدمي ChatGPT لاحظوا مؤخرا أن الروبوت يشير إليهم بأسمائهم أثناء حل المشكلات، وهو سلوك لم يكن معتادا في السابق. وأكد العديد من المستخدمين أن "تشات جي بي تي" خاطبهم بأسمائهم دون أن يُعلموه بها.
ووصف مطوّر البرامج والمتحمس للذكاء الاصطناعي، سيمون ويلسون، هذه الظاهرة بأنها "مخيفة وغير ضرورية"، فيما قال مطور آخر يدعى نيك دوبوس إنه "يكرهها".
ويظهر بحث سريع عبر منصة "إكس" وجود عشرات المستخدمين الذين أعربوا عن ارتباكهم وتشكيكهم إزاء هذا السلوك، حيث كتب أحدهم "يبدو الأمر كما لو أن معلما يُنادي اسمي باستمرار، ههههه. نعم، لا يُعجبني ذلك".
ولم يتضح بعد متى بدأ هذا التغيير أو ما إذا كان مرتبطا بميزة "الذاكرة" المحسنة في ChatGPT، التي تتيح للروبوت الاستفادة من الدردشات السابقة لتخصيص ردوده. وأشار بعض المستخدمين إلى أن تطبيق الذكاء الاصطناعي استمر في استخدام أسمائهم رغم تعطيلهم لميزة الذاكرة وإعدادات التخصيص.
ويرى التقرير أن هذه الواقعة تبرز التحدي الذي تواجهه شركة "OpenAI" في مساعيها لجعل ChatGPT أكثر "شخصية" مع المستخدمين.
وكان الرئيس التنفيذي للشركة، سام ألتمان، قد ألمح الأسبوع الماضي إلى أن أنظمة الذكاء الاصطناعي التي "تتعرف عليك طوال حياتك" ستكون "مفيدة للغاية ومُخصصة"، إلا أن ردود الفعل الأخيرة أظهرت أن كثيرين غير مقتنعين بهذه الفكرة.
وفي محاولة لفهم ردود الفعل السلبية، استشهد التقرير بمقالة نشرتها عيادة "فالينز" للطب النفسي في دبي، أوضحت أن استخدام الاسم الأول يوحي بالألفة، لكن الإكثار منه قد يُنظر إليه باعتباره سلوكا "زائفا ومُتعديا".
وكتبت العيادة أن "استخدام اسم الشخص عند مخاطبته مباشرة يعد استراتيجية فعّالة لبناء العلاقات. فهو يُشير إلى القبول والإعجاب. ومع ذلك، يمكن اعتبار الاستخدام غير المرغوب فيه أو المُبالغ فيه زائفا ومُتعديا".
ورجح التقرير أن السبب الآخر وراء انزعاج المستخدمين هو شعورهم بأن الروبوت يحاول تقليد السلوك البشري بشكل غير طبيعي، مشيرا إلى أن الناس لا يرغبون في أن تتظاهر الأجهزة الجامدة، مثل محمصة الخبز، بأنها تفهم مشاعرهم، وهو نفس الشعور الذي تولّده محاولة ChatGPT لمحاكاة الألفة الإنسانية عبر استخدام الأسماء.
وذكر التقرير أن أحد مراسلي الموقع لاحظ بنفسه الأمر، حين خاطبه ChatGPT باسم "كايل" أثناء محادثة حديثة، قبل أن يتم التراجع عن هذه الميزة لاحقا ليعود الروبوت لاستخدام وصف "المستخدم" بدلا من الاسم الشخصي.
وأشار المراسل إلى أن هذه التجربة "أحدثت ثغرات في الوهم بأن النماذج الأساسية للذكاء الاصطناعي هي أكثر من مجرد أشياء قابلة للبرمجة وتركيبية".