인공 지능이 의학 전문 시험에서 직면하는 도전

현대 AI가 의료 검사에서 약속을 보이지만 한계에 직면

미국 의사 면허 시험(USMLE)과 유럽 심장질환 전문의 기준 시험에서 합격할 능력을 보인 Chat GPT가 기본적인 언어 모델임에도 불구하고 많은 이들을 관심 가지게 했다고 Szymon Suwała 박사가 밝혔습니다. 그러나 더 전문적인 내과 분야에서 테스트되었을 때, AI의 능력은 더 많은 검토를 받게 되었습니다.

Chat GPT의 의학 지식에 대한 철저한 평가

Suwała 박사와 그의 연구 팀은 Chat GPT가 2013년부터 2017년까지의 폴란드 국가 내과 전문의 시험 10개 분야의 문제에 대한 능력을 측정하기 위한 야심찬 프로젝트에 착수했습니다. 이 강력한 시험은 1191 문제로 구성되어 적극적으로 검토할 자료 집합을 제공했습니다. AI의 성적은 평균 점수가 49.4%로 합격 기준 이하였습니다. 구체적으로 합격 기준은 60%로 설정되어 있으며, Chat GPT는 각 세션마다 이 기준 아래에서 떨어졌습니다.

의료 분야별로 다른 성적

질문 주제를 분석할 때 흥미로운 관찰점이 드러났습니다. Chat GPT는 심장병 관련 질문에서 가장 어려움을 겪었는데, 성공률은 43.7%였습니다. 그 다음으로 당뇨병에 집중하는 내분비학에서는 45.1%, 폐병학에서는 46.7%였습니다. 이러한 약한 영역과 대조적으로, AI는 알레르기 관련 질문에서 71.4%의 정확도를 보여주었으며, 감염성 질환에서는 55.3%를 기록했습니다.

Suwała 박사팀의 자세한 조사는 의료 분야에서 AI의 현재 제한과 잠재력을 밝혀 주며, 이러한 기술이 건강 전문가들을 신뢰성 있게 지원할 수 있도록 하기 위해 추가로 개선이 필요함을 보여 주었습니다.

의료 분야에서 인공 지능 통합

인공 지능(AI)은 다양한 분야에서 의료 서비스 개선을 위한 상당한 약속을 품고 있습니다. 그러나 Chat GPT와 같은 AI 시스템이 엄격한 의학 전문 시험을 거치려는 시도는 AI가 면허를 받은 의사와 비교할 만한 능력을 얻기 위해 직면하는 복잡한 도전을 보여 주었습니다.