Застосування голосового синтезу у широкому контексті

OpenAI вже не одне десятиліття працює над розробкою штучного інтелекту і випускає на світ різноманітні проекти, такі як ChatGPT та Sora AI. Однак останнім часом вони представили новий інструмент – голосовий синтез, який здатний створювати штучні голоси на основі всього 15-секундного аудіопримірника.

Упродовж розробки з кінця 2022 року OpenAI проводить невеликий попередній показ Voice Engine. Ця функція вже використовується в додатку ChatGPT у функції «Читати вслух», яка читає відповіді користувачам. Тренуючи голос на короткому примірнику, користувачі можуть зробити його читанням будь-якого тексту бажаного, з емоційним та реалістичним тоном.

Потенційні застосування голосового синтезу широкі та різноманітні. OpenAI вказує, що його можна використовувати для освітніх цілей, перекладу подкастів на різні мови, спілкування з віддаленими спільнотами та підтримки осіб, які не говорять. Проте Voice Engine ще не доступний для широкого використання громадськістю.

OpenAI поділився зразками штучних голосів, створених Voice Engine, які вразили слухачів своєю якістю. Проте є легка робота та нескладний стиль в звуку, що свідчить про необхідність подальших поліпшень.

Основна тривога, що виникає навколо впровадження Voice Engine, – це ризик зловживання. OpenAI активно досліджує способи запобігання поширенню недостовірної і несанкціонованої використання синтезованих голосів. Компанія має на меті почати діалог про відповідальне використання цієї технології та дослідити, як суспільство може пристосовуватися до цієї нової можливості. На основі результатів маломасштабних тестів і цих розмов OpenAI прийме обґрунтоване рішення щодо того, чи і як впроваджувати голосовий синтез масштабно.

Голосовий синтез – це інструмент штучного інтелекту, розроблений OpenAI, який може створювати синтетичні голоси з коротких аудіопримірників. Ці голоси можуть бути використані для читання будь-якого тексту з емоційним та реалістичним тоном.

Можливі застосування голосового синтезу дуже широкі. Його можна використовувати для освітніх цілей, перекладу подкастів на різні мови, спілкування з віддаленими спільнотами та підтримки осіб, які не говорять.

Зараз голосовий синтез доступний лише в обмеженому попередньому показі і не доступний загальній громадськості. Однак OpenAI надав приклади синтетичних голосів, створених Voice Engine для прослуховування.

Основні турботи, що виникають навколо голосового синтезу, – це потенційна можливість зловживання синтетичними голосами, така як поширення недостовірної інформації або копіювання голосів без дозволу. OpenAI активно досліджує способи вирішення цих питань та забезпечення відповідального впровадження технології.

Голосовий синтез також створює виклики для голосової аутентифікації. З появою все більшії реалістичності штучних голосів стає дедалі складніше відрізняти справжні й синтезовані голоси в аудіовзаємодіях. Це може мати наслідки для заходів голосової аутентифікації, таких як голосова біометрія для систем безпеки або верифікація голосом для клієнтської підтримки. Пошук ефективних рішень для збереження довіри й безпеки в аудіовзаємодіях є критично важливим.

Джерело

The source of the article is from the blog smartphonemagazine.nl