人工知能が医学専門試験で直面する課題

現代のAIは医学試験で活躍する可能性を示すも、不足もある

Chat GPTは基本的な言語モデルであるにもかかわらず、United States Medical Licensing Examination（USMLE）および欧州心臓病学試験に合格する能力を示して注目を浴びました。しかし、内科というより専門的な分野でのテストにおいて、AIの能力はさらに検証されました。

Chat GPTの医学知識の詳細な評価

Szymon Suwała博士は、自身の研究チームとともに、Chat GPTの能力を評価する野心的なプロジェクトを開始し、ポーランド国家内科専門試験の質問から得た結果も含め、2013年から2017年までの10回分のデータに基づいてAIの性能を評価しました。この厳しい試験には1191の質問があり、評価のための堅固なデータセットが提供されました。AIのパフォーマンスは、平均スコアが約49.4％であり、合格ラインである60％を下回る結果でした。具体的には、合格点は60％に設定されており、Chat GPTは各セッションで一貫してこのラインを下回っていました。

医学の専門分野における異なるパフォーマンス

質問のトピックを分析すると興味深い観察が得られました。Chat GPTは、心臓病に関連する質問で最も難しさを示し、成功率がわずか43.7％でした。これに続いて、糖尿病に焦点を当てた内分泌学が45.1％、呼吸器疾患学が46.7％でした。これらの弱い分野に対して、AIはアレルギー関連の質問では71.4％という印象的な正確性を示し、感染症学では55.3％でより高い能力を示しました。

Suwała博士のチームによる詳細な調査は、医療分野におけるAIの現在の制限と可能性を明らかにし、そのような技術が医療専門家を信頼して支援する前に、さらなる改善が必要であることを示しています。

医療における人工知能の統合

人工知能（AI）は、さまざまな専門分野で医療提供を向上させる可能性が大きいです。ただし、Chat GPTなどのAIシステムが厳格な医学専門試験を受ける試みは、ライセンスを持つ医師と同等の能力を獲得するためにAIが直面する複雑な課題を明らかにします。

…