أداء GPT-4 قريب من مستوى الأطباء الخبراء في تقييمات العيون
تاريخ النشر: 19th, April 2024 GMT
مع استمرار تقدم نماذج تعلم اللغة (LLMs)، تتزايد أيضًا الأسئلة حول كيفية إفادة المجتمع في مجالات مثل المجال الطبي. وجدت دراسة حديثة أجرتها كلية الطب السريري بجامعة كامبريدج أن أداء GPT-4 من OpenAI كان جيدًا تقريبًا في تقييم طب العيون مثل الخبراء في هذا المجال، حسبما ذكرت صحيفة فايننشال تايمز لأول مرة.
في الدراسة، التي نشرت في PLOS Digital Health، اختبر الباحثون LLM، وسابقه GPT-3.5، وGoogle PaLM 2، وMeta's LLaMA مع 87 سؤال متعدد الاختيارات. وقد تلقى خمسة أطباء عيون خبراء وثلاثة أطباء عيون متدربين وطبيبين مبتدئين غير متخصصين نفس الاختبار الوهمي. جاءت الأسئلة من كتاب دراسي لتدريب المتدربين على كل شيء بدءًا من حساسية الضوء وحتى الآفات. المحتويات ليست متاحة للعامة، لذلك يعتقد الباحثون أنه لا يمكن تدريب حاملي الماجستير في القانون عليها من قبل. تم منح ChatGPT، المجهز بـ GPT-4 أو GPT-3.5، ثلاث فرص للإجابة بشكل نهائي أو تم وضع علامة على استجابته على أنها فارغة.
حصل اختبار GPT-4 على درجات أعلى من المتدربين والأطباء المبتدئين، حيث أجاب على 60 سؤالًا من أصل 87 سؤالًا بشكل صحيح. وفي حين أن هذا كان أعلى بكثير من متوسط الأطباء المبتدئين البالغ 37 إجابة صحيحة، إلا أنه تجاوز متوسط المتدربين الثلاثة البالغ 59.7. وبينما أجاب أحد أطباء العيون الخبراء على 56 سؤالاً بدقة فقط، حصل الخمسة على متوسط 66.4 إجابة صحيحة، متفوقًا على الآلة. سجل PaLM 2 49 نقطة، وسجل GPT-3.5 42 نقطة. وسجل LLaMa أدنى درجة عند 28، وهو أقل من الأطباء المبتدئين. والجدير بالذكر أن هذه التجارب حدثت في منتصف عام 2023.
وفي حين أن هذه النتائج لها فوائد محتملة، إلا أن هناك أيضًا عددًا لا بأس به من المخاطر والمخاوف. وأشار الباحثون إلى أن الدراسة طرحت عددا محدودا من الأسئلة، خاصة في فئات معينة، مما يعني أن النتائج الفعلية قد تكون متنوعة. لدى LLMs أيضًا ميل إلى "الهلوسة" أو اختلاق الأشياء. هذا شيء إذا كانت حقيقة غير ذات صلة ولكن الادعاء بوجود إعتام عدسة العين أو السرطان هو قصة أخرى. كما هو الحال في العديد من حالات استخدام LLM، تفتقر الأنظمة أيضًا إلى الفروق الدقيقة، مما يخلق المزيد من الفرص لعدم الدقة.
المصدر: بوابة الوفد
إقرأ أيضاً: