연구진, 시각 자료를 활용한 의료 쿼리에 대한 다중 모달 접근법 소개

IIT Patna와 Stanford 대학의 연구진은 MedSumm을 개발했습니다. 이는 힌디어-영어 코드믹스 의료 쿼리와 시각 자료를 결합하여 환자의 의료 상태를 보다 포괄적으로 이해할 수 있는 다중 모달 접근법입니다. 스탠포드 대학의 연구자인 아만 채다는 힌디어를 포함한 인도어 언어용 대형 언어 모델 (LLM)인 인도 최초의 의료용 LLM을 구축하고 있는 팀을 이끌고 있습니다. 채다는 기존의 모델이 인도어 언어에 중점을 두지 않았다며, 의료 부문에서 LLM이 필요하다고 강조했습니다.

연구 팀은 기존의 LLM을 기반으로 Open Hathi를 활용하고 있으며, 힌디어와 같은 인도어 언어의 의료 데이터에 대해 세밀하게 조정하고 있습니다. 하지만 채다는 의료 전문 용어를 이 모델에 통합하는 것이 어려운 도전이라고 인정합니다. 이 연구와 별도로 채다는 건강 관리에 대한 다중 모달 질문 요약 등 다른 연구 프로젝트에도 참여하고 있습니다.

인도에서의 컴퓨팅 자원 부족에도 불구하고, 연구진은 데이터셋과 AI 모델을 보다 효율적으로 만들기 위해 노력하고 있습니다. 채다는 제약 사항을 극복하고 혁신을 이끄는 상상력의 중요성을 강조합니다. 그는 연구자들에게 제한된 GPU 액세스를 언급하며, 이에 따라 사용 가능한 자원으로 모델을 최적화하려고 한다고 말합니다.

데이터의 가용성에 관해서는, 연구 팀은 환자의 개인 정보 보호를 위해 익명화된 데이터를 수집하고 있습니다. 또한 데이터 품질을 희생시키지 않으면서 정보를 번역하기 위한 기술을 도입하는 노력을 기울이고 있습니다.

채다는 인도에는 재능이 풍부하지만 충분한 데이터와 컴퓨팅 자원이 부족하다고 강조합니다. 그는 이 분야에서의 이니셔티브를 지원하기 위해 정부 기금 지원을 증가시키기를 요구합니다.

연구진은 자신들의 연구가 미래에 어떤 영향을 미칠지에 대해 큰 희망을 가지고 있으며, 모델과 데이터셋이 공개되면 지역 사회에서 보다 많은 연구와 활용을 유도할 것이라고 믿습니다. 오픈 소스 기여는 인도어 LLM의 발전에 중요한 역할을 할 것입니다.

The source of the article is from the blog papodemusica.com