Advertisement

Typography

تجاوز أداء ChatGPT-4، وهو برنامج ذكاء اصطناعي مصمم لفهم النصوص وانشائها، أداء الأطباء المتخصصين في تحليل البيانات الطبية والعلاجات السريرية عبر مركزين طبيين أكاديميين.

في رسالة بحثية منشورة في JAMA Internal Medicine، أجرى أطباء وعلماء من مركز Beth Israel Deaconess  الطبي (BIDMC) تحليلًا مقارناً لقدرات الاستدلال لنموذج اللغة الكبيرة (LLM)  مقابل المعايير المحددة المستخدمة لتقييم أداء الأطباء.

ونظراً لطبيعة العمليات التشخيصية متعددة الأوجه، هدفت الدراسة إلى تقييم ما إذا كان بإمكان حاملي شهادة الماجستير في الطب أن يضاهوا كفاءة الأطباء في التفكير السريري.

استخدم الباحثون درجة IDEA (r-IDEA) المنقحة، وهي أداة معتمدة لتقييم التفكير السريري بين الأطباء.

شارك في الدراسة 21 طبيباً و18 مقيماً، وكل منهم مكلّف بتحليل مجموعة فرعية من 20 حالة سريرية مقسمة إلى 4 مراحل متتالية من التفكير التشخيصي. تم توجيه المشاركين لتوضيح وتبرير تشخيصاتهم التفريقية في كل مرحلة. وكذلك، تلقى ChatGPT-4 مطالبات متطابقة وقام بمعالجة جميع الحالات السريرية العشرين. تم تقييم الاستجابات بناءً على الاستدلال السريري درجة r-IDEA  وغيرها من مقاييس الاستدلال.

وبشكل غير متوقع، حقق ChatGPT-4 أعلى درجات  r-IDEA، حيث حصل على متوسط ​​درجات 10 من أصل 10، مقارنة بـ 9 للأطباء المعالجين و8 للمقيمين. في حين أظهرت دقة التشخيص - قياس موضع التشخيص الصحيح ضمن القائمة المقدمة - والتفكير السريري الصحيح أداءً مشابهاً بين البشر والذكاء الاصطناعي. ولاحظ الباحثون المزيد من حالات الاستدلال غير الصحيح في الاستجابات التي يولدها الذكاء الاصطناعي. تؤكد هذه النتيجة دور الذكاء الاصطناعي كأداة تكميلية لتعزيز عمليات التفكير البشري وليس اعتمادها بشكل كامل.