Революційні навушники на штучному інтелекті можуть ізолювати окремі голоси в шумних середовищах.

Дослідники з Університету штату Вашингтон вчинили значний крок у галузі аудіотехнологій, розробивши навушники, які використовують штучний інтелект для виділення голосу людини серед каші. Новаторство цієї системи полягає у її можливості фільтрувати голос певної особи на фоні шумного середовища, що може значно поліпшити аудіослухання в активних місцях.

Інноваційний процес включає в себе:

– Ідентифікацію: Користувачі, які носять стандартні навушники з мікрофонами, можуть просто подивитися на людину, з якою вони хочуть спілкуватися, і натиснути кнопку, щоб почати процес.

– Навчання: Мікрофони захоплюють звукові хвилі голосу, під час чого система штучного інтелекту вивчає відмінність та розпізнаває унікальний вокальний підпис.

– Ізоляція: Подальше, всі інші навколишні звуки приглушуються, залишаючи слухача тільки з обраним голосом, незалежно від руху або зміни погляду.

Хоча технологія з назвою “Target Speech Hearing” (TSH) досі знаходиться на стадії розробки, вона продемонструвала обнадіюючі результати. Під час тестів з участю 21 особи учасники повідомили майже подвоєну чіткість голосу з ізольованим аудіо порівняно з незфільтрованим звуком.

В даний час TSH може фокусуватися на одному спікері одночасно та працює оптимально, коли немає конкуруючих голосних шумів із тієї ж самої сторони. Тим не менш, дослідницька команда активно покращує його можливості для підтримки не лише навушників, але також навушників-вкладишів та слухових апаратів.

Потенційні застосування цього прориву широкі, вони включають у себе проведення розмов у шумних місцях, відвідування лекцій чи конференцій. Майбутнє обіцяє ще чіткіші та більш персоналізовані аудіо враження. З продовженням вдосконалення це на підставі штучного інтелекту система може невдовзі переосмислити спілкування з аудіо у нашому повсякденному житті.

Ключові питання та відповіді:

– П: Як штучний інтелект сприяє ізоляції окремих голосів за допомогою навушників?
– О: ШІ сприяє шляхом вивчення відмінності унікального вокального підпису особи на основі звукових хвиль, захоплених мікрофонами, обладнаними навушниками. Потім він ізолює цей ідентифікований голос від фонового шуму.

– П: Які деякі потенційні застосування для цієї технології?
– О: До застосувань відносяться поліпшення комунікації в шумних середовищах, допомога людям із проблемами слуху, покращення чіткості лекцій та конференцій, та надання персоналізованого аудіо враження в різних місцях, таких як громадський транспорт і відвідування переповнених місць.

– П: Чи є обмеження у поточній технології TSH?
– О: Поточні обмеження включають можливість ізолювати лише одного спікера одночасно та знижену ефективність в середовищах, де є гучний шум, що йде із тієї ж сторони, що і спікер.

Ключові виклики чи суперечності:

– Кілька спікерів: Відокремлення декількох перекриваючихся голосів залишає значний виклик для AI-системи аудіоізоляції. У майбутньому вдосконалення повинні вирішити, як технологія може впоратися з ситуаціями, де декілька спікерів говорять одночасно.

– Прохання про Конфедиціальність: Оскільки мікрофони та AI-системи тренуються для розпізнавання та обробки голосів, можливість наявності приватних наслідків повинні бути вирішені, особливо щодо запису та обробки даних.

– Точність в Різноманітних Середовищах: Забезпечення надійної роботи технології в різних акустично різноманітних середовищах залишається викликом.

Переваги:

– Допомога у Комунікації: Ця технологія особливо корисна для людей із порушеннями слуху, пропонуючи можливість краще розуміти розмови в переповнених місцях.

– Покращення Фокусу: Можливість ізолювати голос може допомогти комусь, хто намагається сконцентруватися на певній розмові або джерелі звуку без відволікання на фоновий шум.

– Сумісність з Різними Пристроями: Майбутні плани з впровадження цієї технології в різні аудіо-пристрої, включаючи слухові апарати, розширюють її потенційні використання.

Недоліки:

– Складність та Вартість: Розробка такої високоякісної технології може збільшити складність та вартість споживчих навушників та подібних аудіо-пристроїв.

– Залежність від Візуальних Сигналів: Потреба користувачів дивитися на людину, яку вони хочуть почути, може обмежити корисність навушників у ситуаціях, де взаємодія ока не можлива або є вимаганням соціальних норм.

– Обмежена Функціональність у Деяких Середовищах: Технологія ще нецілковито ефективна в усіх шумних середовищах, особливо там, де декілька людей говорять із тієї ж сторони.

Для додаткової інформації з цієї теми відвідайте:
– Університет Вашингтона