الذكاء الاصطناعي لشركة مايكروسوفت يتخلف عن الأطباء

أظهرت دراسة جديدة أن لوحة تشخيصية رقمية للأطباء تُحقق دقةً تصل إلى حوالي 80% في التشخيصات الطبية المعقدة، وهي نسبة تتجاوز بكثير متوسط دقة الأطباء العامين. يُعد هذا إنجازًا كبيرًا قد يُغير مستقبل الطب، وربما مجالات أخرى كثيرة أيضًا.

 

الذكاء الاصطناعي في الطب. صورة توضيحية: depositphotos.com
الذكاء الاصطناعي في الطب. الرسم التوضيحي: موقع Depositphotos.com

لخمسة عشر عامًا، اعتاد جون التقيؤ كأسلوب حياة. لم يكن يفعل ذلك للتسلية أو لإنقاص وزنه. كان يتقيأ فقط. كان يمشي في الشارع، وفجأة - يتقيأ. كان يتناول العشاء، وفجأة - فهمت الفكرة.

لم يتكيف جون مع وضعه بسهولة.

وقال في منشور على موقع ريديت: "لقد أجريت كل اختبارات المعدة واختبارات الحساسية الموجودة، وتم تشخيصي مؤخرًا بالقلق، وقد ساعدني الدواء حقًا، لكن [القيء] لم يتوقف أبدًا".

في النهاية، استشار جون جهاز الذكاء الاصطناعي، وبناءً على توصيته، خضع لفحص من قِبل أخصائي أنف وأذن وحنجرة وتصوير دماغ. كشف الفحص أنه يعاني من التهاب حاد ومستمر في الأذن، ويمكن علاجه بسهولة.

جون هو اسم مستعار للمستخدم. ريديتلكن القصة، على حدّ علمنا، صحيحة. وهي مصحوبة بقصص أخرى كثيرة، شاركها مستخدمون آخرون على المنصة. من أبرزها قصة رجل قضى سنوات يراجع خبراء طبيين لفهم سبب مرضه دون جدوى، إلى أن أشارت محادثة على GPT إلى احتمال وجود طفرة معينة. أثار المريض المسألة مع الأطباء، وأظهر فحص جيني سريع أن الطفرة هي بالفعل مصدر المشكلة.

سبق أن قيل إنه ينبغي توخي الحذر والتفكير النقدي عند استخدام الذكاء الاصطناعي للحصول على المشورة الطبية. صحيح أنه قادر على الوصول إلى تشخيصات دقيقة، لكنه قد يرتكب أخطاءً جسيمة ويُخفيها بلغة مقنعة واحترافية. لكن من يجيد استخدامه بشكل صحيح يمكنه تحقيق نتائج لا تقل عن المعجزات.

وهذا ما أظهره. أبحاث مايكروسوفت الجديدةنُشر الأسبوع الماضي، ويكشف أن الذكاء الاصطناعي قادر على تشخيص الحالات الطبية المعقدة بنجاح عالٍ: حوالي 85%. لا يتعلق الأمر بسيلان الأنف أو فطريات الأظافر، بل بحالات تتحدى حتى الأطباء الخبراء، وتُعرض عليهم كـ"ألغاز" في أعرق المؤتمرات الطبية. تُنشر أعمال الأطباء البشريين الذين ينجحون في حل هذه الألغاز في المجلات الطبية، ويحظون بتقدير جميع زملائهم.

اتضح الآن أن الذكاء الاصطناعي قادر على حل هذه الألغاز بمفرده. وليس هذا فحسب، بل إنه متاح لكل فرد منا، مقابل عشرين دولارًا شهريًا.

والآن بعد أن أثارت حماسكم، دعونا نبدأ من البداية، ونشرح ما هو عظيم في البحث (وما هي نقاط ضعفه)، ولماذا نحتاج جميعًا إلى فهم ما فعله باحثو مايكروسوفت - وكيف ينبغي دمج هذه المبادئ في كل مهنة ومجال نشاط اليوم.

يجمع نظام MAI-Dx Orchestrator بين الأطباء الرقميين في مجالات الاقتصاد والتنفس والتطوير والدعوة والتشخيص، ويقوم بالتنسيق الذكي لجدولة الاختبارات أو إنهاء التشخيص أو تقديم الاستجابات الطبية.
يجمع نظام MAI-Dx Orchestrator بين الأطباء الرقميين في مجالات الاقتصاد والتنفس والتطوير والدعوة والتشخيص، ويقوم بالتنسيق الذكي لجدولة الاختبارات أو إنهاء التشخيص أو تقديم الاستجابات الطبية.

التحديات التي تواجه الأطباء

قبل بضع سنوات، اضطررتُ للذهاب إلى المستشفى في منتصف الليل لسببٍ مُعلَن عنه. بدا الطبيب المُتحوّل الذي فحصني وكأنه لم ينم منذ ثلاثين ساعة، وربما كان كذلك. أدركتُ حينها أنه إذا أردتُ أفضل رعاية، فعليّ إيقاظه.

"بالمناسبة، أنا أتعاون مع أحد الباحثين في هيئة التدريس في الوقت الحالي،" قلت ذلك بشكل عرضي، بينما كان يخطو بقدميه نحو الباب، "سوف ننشر في مجلة نيو إنجلاند الطبية قريبًا."

وقف هناك كما لو أن صاعقة صعقته. ارتعشت شعيرات أذنيه الناعمة وهو يدير رأسه ببطء نحوي. حدقت بي الممرضة بدهشة. هرع طبيبان متدربان، يتمتعان بسمع خفاش كالذي يرافق فنجان قهوتهما السابع، إلى الغرفة وتوسلا لي شرف التحدث معي وتحليل حالتي. بعد أن انتهيت من عملي في الجناح، فرش لي الطاقم الطبي السجادة الحمراء وطلبوا مني العودة في أي وقت.

على الأقل، هذا ما شعرت به. كان التعامل مع الواقع أقل تفانيًا، لكن التبجيل ظلّ واضحًا.

لماذا؟ لأن جميع الأطباء يقرأون مجلة نيو إنجلاند الطبية. كل من ينشر مقالاً طبياً في هذه المجلة يكتسب شهرة في قسمه، بل في المستشفى بأكمله.

في الصحف اليومية، تجد عادةً قسم الكلمات المتقاطعة الأسبوعي، أو الألغاز بالأبيض والأسود، أو "مسابقة الريف". أما صحيفة "نيو إنجلاند جورنال"، وكما هو متوقع، فتُقدم ألغازًا أكثر تعقيدًا، مُصممة خصيصًا للأطباء. تستند هذه الألغاز إلى تحديات تُطرح على الأطباء في المؤتمرات، حيث يُطلب من الأطباء تشخيص مريض يأتي إليهم بأعراض غير عادية. 

يتم دعوة الأطباء المشاركين في التحدي لطرح أسئلة مطولة على "المريض": "هل قمت بزيارة مناطق استوائية مؤخرًا؟"، "هل تتقيأ بعد شرب المشروبات الاستوائية؟"، "هل حاول كلب أن يأكلك؟"

يمكن للمشاركين أيضًا أن يطلبوا من المريض الخضوع لجميع أنواع الفحوصات الطبية: من فحوصات الدم، إلى فحوصات الرنين المغناطيسي، إلى التسلسل الجيني الكامل. ولكن هناك شرط: عليهم دفع تكاليف هذه الفحوصات. ليس أنفسهم بالطبع، بل هم أطباء. لكن تكلفة كل فحص وهمي محسوبة بعناية. الأطباء الذين يفوزون بالتحدي هم من يتمكنون بالفعل من تشخيص المريض - ولكن أيضًا باستخدام أرخص وأسرع الفحوصات. بمعنى آخر، أفضل الأطباء هم من يتمكنون من حل لغز المرض بأقل تأخير وتكلفة على المريض، وبالطبع على شركة التأمين الصحي.

إن الفوز في مثل هذا التحدي يعد بمثابة وسام شرف للأطباء، حيث يتم تصميم الحالات مسبقًا بحيث يصعب حلها، خاصة عندما يكون الأطباء محدودين في تكاليف الاختبارات التي يمكنهم طلبها.

إذًا، ما مدى نجاح الذكاء الاصطناعي في مثل هذا الاختبار؟ هل يستطيع التفوق على الأطباء في لعبتهم؟

وهذا ما قرر باحثو مايكروسوفت التحقيق فيه، من خلال لجنة خاصة من الذكاء الاصطناعي قاموا بإنشائها لهذا الغرض. 


اللجنة الطبية لشركة مايكروسوفت

الذكاء الاصطناعي الذي أنشأته مايكروسوفت هو في جوهره "لجنة" للذكاء الاصطناعي. يتكون من خمسة ذكاءات اصطناعية، كل منها "يلعب" دورًا مختلفًا:

  • فرضية الطبيب: تدرس الاحتمالات المختلفة وتصنفها على أنها الأكثر احتمالا.
  • يختار الطبيب الاختبارات: يختار ما يصل إلى ثلاثة اختبارات تساعد في التمييز بين الفرضيات الرائدة.
  • طبيب متحدي: يعمل بمثابة "محامي الشيطان" (كما كان في الأصل) ويحدد التحيزات في التفكير السابق، ويلقي الضوء على الأدلة المتضاربة، ويقترح اختبارات يمكنها دحض الفرضيات الرائدة.
  • دكتور اقتصادي: يشجع اختيار الاختبارات الأقل تكلفة، ويرفض الاختبارات الباهظة الثمن التي من المفترض ألا تحقق فائدة كبيرة.
  • قائمة الأطباء: تقوم بإجراء عمليات التحقق من جودة الخلفية للتأكد من أن اللجنة تحدد الأسماء الصحيحة للاختبارات التي تطلب إجراؤها، وأنها لا تنحرف عن قواعد التحدي.

هؤلاء الأطباء الخمسة هم في الواقع نماذج مختلفة من GPT-O3، أقوى ذكاء اصطناعي من OpenAI حتى الآن. لكل منهم احتياجات ورغبات مختلفة، تُحدد في موجه النظام الخاص به، ولذلك يُركزون على نقاط مختلفة تُزعجهم.

النتيجة النهائية، حرفيًا، هي لجنة. لجنة خبراء مستقلة. يتحدث الأطباء الاصطناعيون مع بعضهم البعض، ويتحاورون بوعي وأدب، دون مقاطعة بعضهم البعض. يتوازنون للوصول إلى القرار النهائي في كل جولة: طرح أسئلة على المريض، طلب فحوصات إضافية، أو تقديم التشخيص النهائي. عندما يقتنع جميع أعضاء اللجنة بأنهم قريبون بما يكفي من التشخيص، يُحيلون الإجابة إلى القاضي، الذي يُقرر ما إذا كانوا على صواب أم خطأ.

ومن المدهش أن هذه اللجنة المستقلة تنجح في الوصول إلى التشخيص الصحيح بنسبة 80%. وهي تفعل ذلك بالاعتماد على فحوصات أقل تكلفة (2,396 دولارًا) من تلك التي يطلبها معظم الأطباء.

أود التأكيد على هذه الحقيقة: من المرجح جدًا أن يصل الذكاء الاصطناعي، الذي لا يكلف تشغيله سوى بضعة دولارات كحد أقصى، إلى نفس التشخيص الذي يصل إليه أكثر الأطباء البشريين تقدمًا. كما أن التشخيص أقل تكلفة من حيث الفحوصات اللازمة. بمعنى آخر، لا يقتصر نجاح التشخيص على ذلك فحسب، بل إن عملية التشخيص أيضًا أكثر كفاءة.

كيف نعرف ذلك؟ لأن باحثي مايكروسوفت اختبروا أيضًا أداء أطباء بشريين في نفس الأسئلة. كان الأداء، باختصار، غير مُشجع. حقق أنجح طبيب بشري نسبة نجاح بلغت 2,963% فقط في حل الأسئلة. أما الطبيب العادي؟ فقد حل XNUMX% فقط من الأسئلة بشكل صحيح، بتكلفة اختبار متوسطة بلغت XNUMX دولارًا أمريكيًا. 

إن اللجنة الاصطناعية التي أنشأتها شركة مايكروسوفت تقدم لمحة عما هو آت: عالم يستفيد فيه كل شخص من خدمات المشورة والدعم التي تقدمها لجنة كاملة من الأطباء الاصطناعيين، الذين يحققون معاً نجاحاً أكبر من أي طبيب بشري.

وليس فقط في الطب.


نموذج اللجنة

كتب روبرت هاينلين منذ سنوات عديدة: "اللجنة هي شكل من أشكال الحياة له ستة أرجل أو أكثر، وليس له دماغ".

أي شخص سبق له العمل في لجنة ما يفهم إحباط هاينلاين. فأعضاء اللجنة غالبًا ما يكونون مدفوعين بدوافع خفية، ولا يصغون لبعضهم البعض حقًا، أو يهتمون في الغالب باستعراض حكمتهم والتحدث بصراحة. في كثير من الحالات، يخشى الأعضاء الجدد في اللجنة معارضة مواقف المشاركين الأكثر احترامًا، مثل الحائزين على جائزة نوبل أو مديريهم. والنتيجة الطبيعية للعديد من مناقشات اللجنة هي استمرار الإجماع: ذلك المفهوم الشهير الذي لا يجرؤ أحد على تحديه.

ولكن هل يجب أن يكون هذا هو الحال؟

يُظهر نموذج اللجنة الطبية من مايكروسوفت شكلاً جديدًا من المداولات، قد يقول البعض إن الذكاء الاصطناعي وحده قادر على القيام به. يستمع أعضاء اللجنة إلى بعضهم البعض، ويأخذون بعين الاعتبار مساهماتهم، ويتحدون بعضهم البعض بطريقة تجعل مخرجات اللجنة أكثر دقة من مخرجات أي ذكاء اصطناعي "فردي".

ما النتائج التي يمكن أن نحصل عليها لو عُقدت مناقشات الإدارة بهذه الطريقة أيضًا؟ أو مناقشات الأمن؟ أو حتى مناقشات مجلس الوزراء؟ أو - يا للعجب - لو حوّلنا كل قرار يتخذه محترف وصاحب منصب إلى قرار ناتج عن مناقشات لجان تتواصل فيها الذكاءات الاصطناعية مع بعضها البعض؟

كيف ينبغي هيكلة هذه اللجان؟ من ينبغي أن يكون أعضاء اللجنة، وما هو الترتيب الأمثل لكل منهم في "التحدث"؟ هل ينبغي أن يتمتع بعضهم بصلاحيات أكبر من غيرهم؟ هل ينبغي أن يتمتع واحد أو أكثر منهم بحق النقض (الفيتو) في قرارات اللجنة؟ 

لا توجد إجابات شافية لهذه الأسئلة، لأننا لم نكن نملك قط كيانات "مفكرة"، أو على الأقل عمليات تحاكي نتائج التفكير البشري، كما هو الحال اليوم. كيف ينبغي لهذه الكيانات أن تتواصل مع بعضها البعض، وما هي قواعد الحوار بينها؟ ليس لدينا أدنى فكرة. ببساطة، ليس لدينا أدنى فكرة. يبني علماء الاجتماع وباحثو الإدارة في الأوساط الأكاديمية مساراتهم المهنية بالكامل على دراسة عمليات صنع القرار في اللجان والمنظمات. وهنا مهنة جديدة أخرى سنراها في السنوات القادمة: إدارة وتنظيم التفاعلات بين الذكاء الاصطناعي في اللجان وبشكل عام.

وربما مهنة أخرى تقليدية: التفكير النقدي. فحتى في أبحاث مايكروسوفت، قد تجد مشاكل، وكثيرة. ورغم أنها لا تُغير الرسالة النهائية - وهي أن الذكاء الاصطناعي سيؤثر إيجابًا على حياتنا، من خلال الحوار بين أنواع الذكاء الاصطناعي، من بين أمور أخرى - فمن المهم معالجتها أيضًا.


التفاصيل الصغيرة

عندما كنتُ أدرس الدكتوراه في تكنولوجيا النانو، اضطررتُ لخوض العديد من الدراسات. بدت كل دراسة منها مثيرة للإعجاب من الخارج، ولم يكشف سوى قراءة متأنية للتفاصيل الدقيقة عن المشاكل الخفية. في محنتي، لجأتُ إلى طبيبة حكيمة، فقالت لي: 

"البحث العلمي يشبه النقانق الساخنة: بعد أن ترى كيفية صنعها، لن تكون مستعدًا لابتلاعها بسهولة."

كانت مُحقة. لكل دراسة مشاكل وتفاصيل صغيرة تُصعّب قبول النتيجة كحقيقة واضحة. وينطبق الأمر نفسه على دراسة مايكروسوفت الجديدة.

هل قلتُ إنهم قارنوا أداء الذكاء الاصطناعي بأداء الأطباء؟ هذا صحيح، ولكن أي أطباء؟ حسنًا، جميع الأطباء في الدراسة كانوا أطباءً "عامين"، أي ليس لديهم خبرة محددة في الأسئلة التي طُرحت عليهم. لذا، بدايةً، تُقارن مايكروسوفت ذكاءها الاصطناعي بالأطباء على مستوى "أساسي".

لكن الأمر يزداد سوءا.

طُلب من الأطباء المشاركين في الدراسة عدم استخدام مصادر خارجية للإجابة على الأسئلة. لا جوجل، ولا دردشة GPT، ولا أي مصدر إلكتروني آخر. ببساطة، لا. أي أنهم اضطروا للإجابة على الأسئلة بالاعتماد كليًا على عقولهم البشرية. لست متأكدًا من وجود طبيب يستطيع التفكير دون مساعدة خارجية. ولكن كان عليهم الإجابة على الأسئلة بهذه الطريقة.

ولكن هذا أسوأ.

كُلِّف الأطباء البشريون بتشخيص 56 حالة. لم يُحدَّد لهم مهلة زمنية، ولكن من المفهوم أنهم بعد بضع حالات كهذه، كانوا سيُنهَكون. كان من المثير للاهتمام مقارنة معدل نجاحهم في فك رموز الحالات القليلة الأولى بنجاحهم في فك رموز الحالات القليلة الأخيرة، عندما كانوا قد وصلوا إلى نهاية طاقتهم. الذكاء الاصطناعي، بالطبع، لا يواجه مشاكل مماثلة. كان بإمكانه الاستمرار في معالجة آلاف الحالات، حتى انهارت الحضارة البشرية وحلَّ محلها الحبار الذكي.

ولكن هذا أسوأ.

ذكرتُ أن اللجنة الطبية المستقلة توصلت إلى نتائج دقيقة وفعالة (بفحوصات رخيصة). هذا صحيح، لكنني لم أذكر أن الباحثين استخدموا أيضًا الذكاء الاصطناعي من نوع "نماذج الاستدلال"، مثل GPT-O3، وClaude 4-Opus، وGemini 2.5-Pro. لم تُشغَّل هذه النماذج في شكل لجنة طبية، بل سُئِل المرضى ببساطة عن مرضهم. كما أُتيحت لهم فرصة طرح الأسئلة وطلب الفحوصات. هذه النماذج ببساطة نماذج "مستقلة"، وليست جزءًا من لجنة طبية مستقلة.

ونجحوا على مستوى عالي.

تمكّن محرك GPT-O3 - الذي يُمكن لأيٍّ منا استخدامه مقابل عشرين دولارًا شهريًا - من تحقيق دقة تقترب من ثمانين بالمائة في تشخيصاته (مع أنه تطلّب اختبارات باهظة الثمن قبل الوصول إلى نتيجة). أما جهازا Claude 4-Opus وGemini 2.5-Pro، فقد حققا دقةً تُقارب سبعين بالمائة، كما تطلّبا اختباراتٍ باهظة الثمن.

مع ذلك، تفوق نموذج اللجنة على المحركات الفردية، ولكن ليس بفارق كبير. ولعل هذا لا ينبغي أن يُفاجئنا. نعلم أنه عندما تحاول محركات الاستدلال حل مشكلة معقدة، فإنها تُعالجها من اتجاهات وزوايا ومنظورات مختلفة. من المحتمل جدًا أن يكون نموذج اللجنة مُدمجًا تلقائيًا في محركات الاستدلال، بحيث "تفصل نفسها" إلى كيانات مختلفة عند محاولة حل مشكلة، وتسمح لها بالتواصل مع بعضها البعض، وتلخيص النتائج. ظاهريًا، تبدو وكأنها تعتمد على خط تفكير واحد فقط. ولكن في الداخل؟ شركات الذكاء الاصطناعي وحدها هي التي تعرف بالضبط كيف تحل نماذج الاستدلال المشكلات.

وكل هذه التفاصيل المزعجة حول البحث، كما ذُكر، لا تُغيّر النتيجة النهائية: الذكاء الاصطناعي الذي نمتلكه جميعًا اليوم قادر على الإجابة على أسئلة طبية معقدة بدقة تصل إلى ثمانين بالمائة. هل يُجيدون ذلك أفضل من الأطباء البشريين؟ ربما. مع كل القيود التي فرضها الباحثون على الأطباء البشريين، من الواضح أنهم غيّروا قواعد اللعبة. ولكن من يُبالي؟ الأهم هو أن الذكاء الاصطناعي قادر على حل المشكلات الطبية بمستوى عالٍ. 

هذا النجاح، بحد ذاته، سيُغيّر العالم ومهنة الطب. سيكون لكلٍّ منا لجنة من الأطباء الخبراء تُعاينه وتُعاينه متى شاء. ويمكن لأي شخص الحصول على توصيات هذه اللجنة مجانًا. وهذا سيحدث في جميع المجالات: الطب، والقانون، والمحاسبة، والتوفيق بين الأزواج. كل شيء.

هذا هو المعنى الحقيقي لأبحاث مايكروسوفت.