Роль штучного інтелекту у модерній медицині

Штучний інтелект (ШІ) здатний внести значний внесок у вдосконалення медичної галузі, від діагностики до лікування. Однак, використання ШІ в медицині не обходиться без викликів та проблем. Останній дослідження показують, що компанії, які спеціалізуються на ШІ, мають проблеми з отриманням якісних тренувальних даних.

Одна зі світлих компаній у цій сфері, Одеське Інтелектуальне Співтовариство (ОІС), зіткнулася з викликами в управлінні тренувальними даними. Компанія розробила модель аудіовідтворення написання під назвою “Шепіт”, яка перевела понад мільйон годин відео з YouTube, що в подальшому використовувались для тренування ШІ-моделі. Тим не менше, ОІС визнало потенційні правові наслідки цього підходу, але вважало його допустимим. Зокрема, президент ОІС Григорій Брокманн особисто контролював збір відео для тренування.

Відповідаючи на ці заяви, прес-секретар ОІС, Ліндсі Хелд, зазначила, що компанія створює “унікальні” набори даних для кожної своєї моделі, щоб поліпшити їх розуміння світу. Хелд роз’яснила, що ОІС використовує різні джерела даних, включаючи загальнодоступні дані та не публічні партнерства, а також вивчає генерацію синтетичних даних. Компанія вичерпала свої наявні запаси корисних даних у 2021 році і почала розглядати питання переносу відео з YouTube, подкастів та аудіокниг, нарівні з іншими ресурсами, такими як комп’ютерний код з Github, базами даних ходів у шахах та навчальним вмістом з Quizlet.

Google, ще один головний гравець у галузі ШІ, також зіткнувся з проблемами в отриманні тренувальних даних. Матт Браянт, представник компанії, відреагував на повідомлення про використання ОІС вмісту з YouTube для тренування. Браянт підкреслив, що несанкціонований парсинг або завантаження вмісту з YouTube є строго забороненим згідно з умовами надання послуг. Google визнав, що навчає свої моделі за деяким вмістом YouTube в рамках угод з творцями YouTube. Крім того, компанія внесла зміни до своєї політики конфіденційності, щоб розширити можливості використання даних користувачів, таких як включення їх у офісні інструменти, наприклад Google Docs.

Мета, яка раніше відома як Facebook, зіткнулася з подібними перешкодами в отриманні якісних тренувальних даних. Записи, отримані газетою The New York Times, розкрили обговорення в команді ШІ Meta незаконного використання захищених авторським правом творів. Meta дослідила різні стратегії для наздогнання ОІС, включаючи можливість придбання ліцензій на книги або навіть придбання великої видавничої компанії. Зміни, пов’язані з конфіденційністю, внесені Meta відповідно до скандалу з Cambridge Analytica, також обмежили її можливість використовувати дані споживачів.

ШІ компанії, включаючи Google, ОІС та інших, борються із зменшенням доступності тренувальних даних для своїх моделей, які великою мірою залежать від обсягу даних для покращення. Швидке споживання нового контенту може випередити можливість отримання свіжих тренувальних даних до 2028 року. На фоні цього виклику можливі рішення, відзначені в останніх звітах, включають тренування моделей на синтетичних даних, згенерованих їх моделями або використання методів курсового навчання. Однак ефективність цих підходів ще не доведена.

Часті питання

1. Чому штучні інтелектуальні компанії мають проблеми з отриманням високоякісних тренувальних даних?
ШІ компанії великою мірою залежать від високоякісних тренувальних даних для поліпшення своїх моделей. Однак доступність таких даних стає все більш обмеженою, створюючи значні виклики для цих компаній.

2. Як ОІС вирішує проблему нестачі даних?
ОІС вдається до різних методів, щоб вирішити проблему нестачі тренувальних даних. Одним із шляхів було створення моделі аудіовідтворення під назвою “Шепіт”, яка виписала мільйони годин відео з YouTube для тренування своєї мовної моделі. Проте цей метод викликав потенційні правові питання.

3. Як реагує Google на заяви про несанкціоноване використання вмісту YouTube?
Google строго забороняє несанкціонований парсинг або завантаження вмісту YouTube, згідно з їхнями умовами надання послуг. Компанія визнає, що тренує свої моделі за деяким вмістом YouTube згідно з угодами, укладеними з творцями YouTube.

4. Як ШІ компанії досліджують альтернативні рішення для подолання нестачі даних?
ШІ компанії розглядають різні стратегії для вирішення проблеми нестачі даних. Дехто з потенційних рішень включає тренування моделей на синтетичних даних, згенерованих їхніми власними моделями або використання методів курсового навчання, де моделі подаються високоякісні дані у впорядкованому порядку для поліпшення їхнього розуміння.

Джерела:

The New York Times
The Wall Street Journal
The Verge
Getty Images

Автор: [Ваше Ім’я], любитель технологій та письменник, який палко цікавиться новаторськими технологіями.

The source of the article is from the blog maltemoney.com.br