Смещение в Инструментах Машинного Обучения для Исследований в Области Иммунотерапии

Исследователи из отделения компьютерных наук Университета Райса обнаружили смещение в широко используемых инструментах машинного обучения, применяемых для исследований в области иммунотерапии. Команда, состоящая из аспирантов Ани Конев, Романоса Фасулиса и Сары Холл-Сван, а также преподавателей компьютерных наук Родриго Ферейры и Лидии Кавраки, проанализировала общедоступные данные, касающиеся прогнозирования связывания пептида-HLA (pHLA) и выявила географическое смещение в пользу общин с более высоким уровнем дохода. Это смещение может иметь значительные последствия для разработки эффективных иммунотерапий.

Исследования в области иммунотерапии сосредотачиваются на выявлении пептидов, которые могут эффективно связываться с конкретными аллелями HLA пациента для создания персонализированных и высоко целевых терапий. Инструменты машинного обучения используются для прогнозирования эффективности связывания пептида с аллелями HLA, оптимизируя процесс. Однако исследователи из Университета Райса обнаружили, что данные, используемые для обучения этих моделей машинного обучения, искажены в сторону общин с более высоким уровнем дохода. Это вызывает опасения относительно эффективности иммунотерапий в общинах с низким уровнем дохода, так как генетические данные из этих общин недостаточно представлены.

Для решения этой проблемы команда Университета Райса оспаривает концепцию «пан-аллельных» машинного обучения, которая в настоящее время используется для прогнозирования связывания pHLA. Эти модели утверждают, что могут обобщаться на данные для аллелей, не представленных в наборе данных для обучения. Однако результаты исследований исследователей подчеркивают ограничения таких прогнозов, когда речь идет о данных из общин с низким уровнем дохода.

Обратив внимание на смещение в моделях машинного обучения, используемых в исследованиях в области иммунотерапии, команда стремится поощрить разработку по-настоящему беспристрастных и справедливых методов для прогнозирования связывания pHLA. Они подчеркивают необходимость учитывать данные в социальном контексте и признавать исторические и экономические факторы, которые могут повлиять на представление различных популяций в наборах данных.

В конечном итоге цель заключается в том, чтобы гарантировать, что инструменты, используемые в клинических условиях, такие как персонализированные иммунотерапии, являются точными и включают в себя разнообразные демографические группы. Исследования, проведенные командой Университета Райса, служат напоминанием для научного сообщества о вызовах, связанных с получением несмещенных наборов данных и важности устранения смещений в машинном обучении.

The source of the article is from the blog publicsectortravel.org.uk