بوابة الوفد:
2024-12-23@03:06:22 GMT

ChatGPT يدعم الدردشات الصوتية والصور

تاريخ النشر: 25th, September 2023 GMT

يحصل ChatGPT على بعض التحديثات المهمة التي ستمكن برنامج الدردشة الآلي من التعامل مع الأوامر الصوتية والاستعلامات المستندة إلى الصور. سيتمكن المستخدمون من إجراء محادثة صوتية مع ChatGPT على Android وiOS وإدخال الصور فيها على جميع الأنظمة الأساسية. يقوم OpenAI بطرح الميزات الآن. وستكون متاحة لمستخدمي Plus وEnterprise في البداية، وسيتمكن الأشخاص الآخرون من الوصول إلى الميزات المستندة إلى الصور لاحقًا.

ستحتاج إلى الاشتراك في المحادثات الصوتية في تطبيق ChatGPT (انتقل إلى الإعدادات ثم الميزات الجديدة) إذا كنت ترغب في تجربتها. ومن خلال النقر على زر الميكروفون، ستتمكن من الاختيار من بين خمسة أصوات مختلفة.

تقول OpenAI إن المحادثات الصوتية ذهابًا وإيابًا مدعومة بنموذج جديد لتحويل النص إلى كلام يمكنه إنشاء "صوت يشبه الإنسان من نص فقط وبضع ثوانٍ من عينة الكلام". لقد خلقت الأصوات الخمسة بمساعدة ممثلين محترفين. وبالذهاب في الاتجاه الآخر، يقوم نظام التعرف على الكلام Whisper الخاص بالشركة بتحويل الكلمات المنطوقة للمستخدم إلى نص.


الوظائف القائمة على الصور مثيرة للاهتمام أيضًا. يقول OpenAI أنه يمكنك، على سبيل المثال، عرض صورة للشواية على برنامج الدردشة الآلي والسؤال عن سبب عدم تشغيلها، أو جعله يساعد في التخطيط لوجبة بناءً على لقطة لما يوجد في ثلاجتك أو مطالبته بحل مسألة رياضية تريدها. التقاط صورة ل. وفي الواقع، سلطت مايكروسوفت الضوء على قدرة Copilot AI على حل المسائل الرياضية في نظام التشغيل Windows خلال حدث Surface الأسبوع الماضي.

يستخدم OpenAI GPT-3.5 وGPT-4 لتشغيل ميزات التعرف على الصور. لاستخدام وظائف ChatGPT المستندة إلى الصور، انقر فوق زر الصورة (ستحتاج إلى النقر فوق زر علامة الجمع أولاً على نظام iOS أو Android) لالتقاط صورة أو اختيار صورة موجودة على جهازك. يمكنك سؤال ChatGPT عن صور متعددة واستخدام أداة الرسم للتركيز على جزء معين من الصورة.

وفي منشور بالمدونة يعلن عن التحديثات، أشارت OpenAI إلى احتمال حدوث ضرر. من الممكن أن يقلد الممثلون السيئون أصوات الشخصيات العامة (والأشخاص العاديين) وربما يرتكبون الاحتيال. ولهذا السبب تركز OpenAI على المحادثات الصوتية ChatGPT مع هذه التكنولوجيا والعمل مع شركاء مختارين في حالات استخدام محدودة أخرى (المزيد حول ذلك بعد قليل).

أما بالنسبة للصور، فقد عملت OpenAI مع Be My Eyes، وهو تطبيق مجاني يمكن للأشخاص المكفوفين وضعاف البصر استخدامه لمساعدتهم على فهم محيطهم بشكل أفضل بفضل المتطوعين الذين ينضمون إلى مكالمات الفيديو معهم. قال OpenAI: "أخبرنا المستخدمون أنهم يجدون أنه من المفيد إجراء محادثات عامة حول الصور التي تحتوي على أشخاص في الخلفية، مثل ظهور شخص ما على التلفزيون أثناء محاولتك معرفة إعدادات جهاز التحكم عن بعد". وأشارت الشركة إلى أنها قيدت أيضًا كيفية قيام ChatGPT بالتحليل والإدلاء ببيانات مباشرة حول الأشخاص الذين يظهرون في الصور، "نظرًا لأن ChatGPT ليس دقيقًا دائمًا ويجب أن تحترم هذه الأنظمة خصوصية الأفراد". وقد نشرت ورقة بحثية عن خصائص السلامة للوظيفة القائمة على الصور، والتي أطلقت عليها اسم GPT-4 مع الرؤية.

يعتبر ChatGPT أكثر فعالية في فهم النص الإنجليزي في الصور من اللغات الأخرى. تقول OpenAI إن أداء روبوت الدردشة "ضعيف" في اللغات الأخرى في الوقت الحالي، خاصة عندما يتعلق الأمر بتلك التي تستخدم نصوصًا غير رومانية. على هذا النحو، يقترح أن يتجنب المستخدمون غير الناطقين باللغة الإنجليزية استخدام ChatGPT للتعامل مع النص في الصور في الوقت الحالي.

وفي الوقت نفسه، تعاونت Spotify مع OpenAI لاستخدام التكنولوجيا الصوتية لغرض مثير للاهتمام. أعلن الأول عن تجربة تجريبية لأداة تسمى الترجمة الصوتية لمنشئي البث الصوتي. يمكن أن يؤدي ذلك إلى ترجمة ملفات البودكاست إلى لغات مختلفة باستخدام أصوات الأشخاص الذين يظهرون في العرض. يقول Spotify أن الأداة يمكنها الاحتفاظ بخصائص الكلام الخاصة بالسماعة الأصلية بعد التحويل أصواتهم إلى لغات أخرى.

في البداية، يقوم Spotify بتحويل عروض مختارة باللغة الإنجليزية إلى بضع لغات. الإصدارات الإسبانية من بعض حلقات Armchair Expert وThe Diary of a CEO مع ستيفن بارتليت متاحة الآن، وستتبعها نسخ فرنسية وألمانية.

المصدر: بوابة الوفد

إقرأ أيضاً:

OpenAI تطرح طراز o3 من الجيل التالي أوائل العام المقبل

بعد ما يقرب من أسبوعين من الإعلانات، اختتمت OpenAI سلسلة البث المباشر التي استمرت 12 يومًا من OpenAI بمعاينة لطرازها الرائد من الجيل التالي. قال الرئيس التنفيذي لشركة OpenAI سام ألتمان لأولئك الذين شاهدوا الإعلان على YouTube: "احترامًا للأصدقاء في Telefónica (مالك شبكة O2 الخلوية في أوروبا)، ووفقًا للتقاليد العظيمة التي تتسم بها OpenAI بأنها سيئة حقًا في الأسماء، فقد أطلقنا عليها اسم o3".

الطراز الجديد ليس جاهزًا للاستخدام العام حتى الآن. بدلاً من ذلك، تجعل OpenAI أولاً o3 متاحًا للباحثين الذين يريدون المساعدة في اختبارات السلامة. كما أعلنت OpenAI عن وجود o3-mini. قال ألتمان إن الشركة تخطط لإطلاق هذا الطراز "في نهاية شهر يناير"، مع إطلاق o3 "بعد ذلك بفترة وجيزة".

 

كما قد تتوقع، يقدم o3 أداءً محسنًا مقارنة بسابقه، ولكن ما مدى تفوقه على o1 هو السمة الرئيسية هنا. على سبيل المثال، عندما تم اجتياز امتحان الرياضيات الأمريكي لهذا العام، حققت o3 درجة دقة بلغت 96.7 في المائة. وعلى النقيض من ذلك، حصلت o1 على تصنيف أكثر تواضعًا بنسبة 83.3 في المائة. قال مارك تشين، نائب الرئيس الأول للأبحاث في OpenAI: "ما يدل على ذلك هو أن o3 غالبًا ما تفوت سؤالاً واحدًا فقط". في الواقع، حققت o3 أداءً جيدًا للغاية في مجموعة المعايير المعتادة التي تضعها OpenAI لنماذجها لدرجة أن الشركة اضطرت إلى إيجاد اختبارات أكثر تحديًا لمقارنتها بها.


أحد هذه الاختبارات هو ARC-AGI، وهو معيار يختبر قدرة خوارزمية الذكاء الاصطناعي على الحدس والتعلم على الفور. وفقًا لمبتكر الاختبار، مؤسسة ARC Prize غير الربحية، فإن نظام الذكاء الاصطناعي الذي يمكنه التغلب بنجاح على ARC-AGI من شأنه أن يمثل "معلمًا مهمًا نحو الذكاء الاصطناعي العام". منذ ظهوره لأول مرة في عام 2019، لم يتفوق أي نموذج للذكاء الاصطناعي على ARC-AGI. يتكون الاختبار من أسئلة الإدخال والإخراج التي يمكن لمعظم الناس فهمها بشكل حدسي. على سبيل المثال، في المثال أعلاه، ستكون الإجابة الصحيحة هي إنشاء مربعات من البوليومينو الأربعة باستخدام كتل زرقاء داكنة.

في إعداد الحوسبة المنخفضة، سجل o3 نسبة 75.7 في المائة في الاختبار. مع قوة المعالجة الإضافية، حقق النموذج تصنيفًا بنسبة 87.5 في المائة. وفقًا لـ Greg Kamradt، رئيس مؤسسة ARC Prize Foundation، "الأداء البشري قابل للمقارنة عند عتبة 85 في المائة، لذا فإن تجاوز هذا يعد إنجازًا رئيسيًا".


استعرضت OpenAI أيضًا o3-mini. يستخدم النموذج الجديد واجهة برمجة تطبيقات Adaptive Thinking Time التي أعلنت عنها OpenAI مؤخرًا لتقديم ثلاثة أوضاع استدلال مختلفة: منخفضة ومتوسطة وعالية. في الممارسة العملية، يسمح هذا للمستخدمين بتعديل المدة التي "يفكر" فيها البرنامج في مشكلة قبل تقديم إجابة. كما ترى من الرسم البياني أعلاه، يمكن لـ o3-mini تحقيق نتائج مماثلة لنموذج الاستدلال الحالي o1 من OpenAI، ولكن بجزء بسيط من تكلفة الحوسبة. كما ذكرنا، سيصل o3-mini للاستخدام العام قبل o3.

مقالات مشابهة

  • كيفية استخدام ChatGPT على واتساب
  • رئيس «حقوق الإنسان»: المجلس يدعم أي عمل يعزز المساواة وتهيئة الظروف لذوي الإعاقة
  • بالفيديو والصور: 4 شهداء باستهداف مركبة وسط مدينة غزة
  • تامر عاشور يحقق أول مليون مشاهدة بأغنيته «ياه» ويتصدر التريند
  • Open AI توسع قدرات ChatGPT على حواسيب آبل
  • لعشاق الذكاء الاصطناعي.. خطوات تفعيل ChatGPT على واتساب مجانا
  • بالفيديو والصور: إصابة 16 إسرائيلياً إثر سقوط صاروخ من اليمن على تل أبيب
  • يوتيوب يواجه العناوين الخداعة لمنع الفيديوهات المضللة
  • OpenAI تطرح طراز o3 من الجيل التالي أوائل العام المقبل
  • OpenAI تقدم ميزة ChatGPT إلى WhatsApp