Революційні навушники з штучним інтелектом можуть ізолювати окремі голоси в шумних середовищах.

Дослідники з університету Вашингтона зробили значний крок у звуковій технології, розробивши навушники, які використовують штучний інтелект для виділення людського голосу в середовищі переповненого звуків. Новизна цієї системи полягає у можливості фільтрувати голос конкретної людини з шумним тлом, що може значно покращити слуховий досвід в переповнених середовищах.

Інноваційний процес включає:

– Ідентифікацію: Користувачі, які носять стандартні навушники з мікрофонами, можуть просто подивитися на людину, з якою вони хочуть спілкуватися, і натиснути кнопку для початку процесу.

– Навчання: Мікрофони захоплюють звукові хвилі голосу, поки система штучного інтелекту навчається відрізняти та впізнавати цей унікальний голосовий підпис.

– Ізоляцію: Після цього всі інші оточуючі шуми приглушуються, залишаючи слухача лише із обраним голосом, незалежно від руху або зміни погляду.

Хоча технологія під назвою “Target Speech Hearing” (TSH) ще перебуває на стадії розробки, вона вже продемонструвала обнадійливі результати. Під час тестів із 21 учасником, учасники повідомили про майже подвоєну чіткість голосу з ізольованим аудіо порівняно з нефільтрованим звуком.

Зараз TSH може фокусуватися лише на одного спікера одночасно і оптимально працювати, коли з того ж напрямку немає конкуруючих голосних шумів. Проте дослідницька група активно покращує його можливості, щоб підтримувати не лише навушники, але й вушні аппарати та слухові аппарати.

Потенційні застосування цього прориву широкі: від проведення розмов в шумних місцях до відвідування лекцій чи конференцій. Майбутнє обіцяє ще чіткіші та більш персоналізовані звукові враження. З продовженням розвитку ця система на основі штучного інтелекту може незабаром перевизначити спосіб, яким ми спілкуємося з аудіо в нашому повсякденному житті.

Ключові питання та відповіді:

– П: Як штучний інтелект допомагає ізолювати окремі голоси за допомогою навушників?
– A: Штучний інтелект допомагає в тому, що він навчається впізнавати унікальний голосовий підпис людини на основі звукових хвиль, захоплених мікрофоном у навушниках. Потім він ізолює цей ідентифікований голос від фонового шуму.

– П: Які деякі потенційні застосування цієї технології?
– A: До застосувань входять поліпшення комунікації в шумних середовищах, допомога людям із проблемами зі слухом, покращення чіткості лекцій і конференцій, а також надання персоналізованого аудіо враження в різних середовищах, таких як транспорт чи переповнені місця.

– П: Чи є обмеження у поточній технології TSH?
– A: До поточних обмежень входить можливість ізолювати лише одного спікера одночасно та зменшена ефективність в середовищах, де з того ж напрямку виникає голосний шум.

Ключові виклики або контроверсії:

– Декілька спікерів: Розділення декількох накладених голосів залишається значним викликом для звукової ізоляції, здійсненої за допомогою штучного інтелекту. У майбутньому розробники повинні вирішити, як технологія буде працювати в умовах з декількома одночасно говорячими спікерами.

– Спроблеми з конфіденційністю: Оскільки мікрофони та системи штучного інтелекту навчаються впізнавати та обробляти голоси, можуть виникнути проблеми з конфіденційністю, зокрема щодо запису та обробки даних.

– Точність у різноманітних середовищах: Забезпечення надійної роботи технології в різних акустично різноманітних середовищах залишається викликом.

Переваги:

– Допомога у комунікації: Ця технологія особливо корисна для людей із проблемами зі слухом, пропонуючи можливість краще розуміти розмови в переповнених місцях.

– Підвищення уваги: Можливість ізолювати голос може допомогти будь-кому, хто намагається зосередитися на конкретній розмові або джерелі звуку, не відволікаючись на фоновий шум.

– Спільна сумісність пристроїв: Майбутні плани з впровадження цієї технології в різні аудіо-пристрої, включаючи слухові аппарати, розширюють її потенційні випадки використання.

Недоліки:

– Складність та вартість: Розробка такої високотехнологічної технології може підвищити складність та вартість споживчих навушників та схожих аудіо-пристроїв.

– Залежність від візуальних натяків: Потреба користувачів дивитися на людину, що їм хочеться почути, може обмежити корисність навушників в ситуаціях, коли взаємодія очима не можлива або соціально прийнятна.

– Обмежена функціональність в певних середовищах: Технологія ще не є повністю ефективною у всіх шумних середовищах, особливо там, де розмовляють декілька людей із того ж напрямку.