新しいテキストから音声へのモデルの進歩:BASE TTSによる自然な文の解放

Amazonの研究者たちは、テキストから音声への技術において重大な進歩を遂げ、複雑な文章を自然な形で話す能力が向上した最大のモデルを訓練しました。この開発は、これまで人間らしい声を作成しようとする試みに悩まされてきた”アンケニー・バレー現象”を克服するための重要な一歩となる可能性があります。

従来の言語モデルとは異なり、この新しいモデルであるBASE TTS(Big Adaptive Streamable TTS with Emergent abilities)は、一定のサイズの閾値を超えた時点で性能に大きな飛躍を示します。Amazon AGIの研究者たちは、テキストから音声へのモデルでも同様の成長パターンが観察できると長年にわたり推測しており、彼らの最新の研究でこの仮説が検証されました。

BASE TTSは、合計100,000時間のパブリックドメインの音声データを使用し、英語を中心に一部がドイツ語、オランダ語、スペイン語で構成されています。さらに、チームはモデルのパラメータ数が4億と1億5千万のより小さいバージョンも訓練し、新たな能力がいつから現れるかをより良く理解しました。

音声の品質の改善は従来のモデルと比べてわずかでしたが、BASE TTSは様々な会話型AIタスクの取り扱いにおいて驚くべき能力を発揮しました。研究者たちは、従来のテキストから音声エンジンでの処理が難しいとされるテキストの例をモデルの性能試験に使用しました。これらの例には、複数の名詞で構成される単語、感情的な話し方、外国語の単語、語間表現、句読点、質問、文法的複雑さなどが含まれます。

BASE TTSは、TortoiseやVALL-Eなどの他のモデルと比べて、難しい単語やフレーズの発音においてははるかに高い精度と自然さを示しました。このモデルは、困難な文を解析し、長い複合名詞の句読点の強勢を強調し、感情的な話し方やささやき声を出し、外国語や句読点を正しく発音し、文法的な複雑さを処理することができました。

研究者のウェブサイトで提示された例は意図的に選ばれたものですが、これによってBASE TTSの高度な能力が説得力を持って示されています。このブレイクスルーにより、テキストから音声技術の未来は有望に見え、バーチャルアシスタント、オーディオブック、合成音声が利用されるその他のアプリケーションにおいて、より自然で人間らしい声の実現が可能になるでしょう。

FAQセクション:
1. Amazonの研究者によるテキストから音声技術のブレイクスルーの意義は何ですか?
– このブレイクスルーは、”アンケニー・バレー現象”を克服し、より人間らしい声の創造に重要な一歩となります。

2. 新しいモデルBASE TTSは、従来の言語モデルとどのように異なりますか?
– 従来のモデルとは異なり、BASE TTSは一定のサイズの閾値を超えた時点で大きな性能向上を示し、サイズによる漸進的な改善とは異なります。

3. BASE TTSモデルのサイズはどれくらいですか?
– BASE TTSは合計で100,000時間のパブリックドメインの音声データを使用し、98億のパラメータを持つ最大のモデルです。

4. BASE TTSに使用されている音声データにはどのような言語が含まれていますか?
– このモデルは主に英語の音声データを使用していますが、一部にはドイツ語、オランダ語、スペイン語のセグメントも含まれています。

5. BASE TTSが示したいくつかの新たな能力は何ですか?
– BASE TTSは、難しい単語やフレーズを正確に発音する能力、ガーデンパス文の解析、感情的な話し方やささやき声の生成、外国語や句読点の正確な発音、文法的な複雑さの処理など、さまざまな会話型AIタスクの取り扱いにおいて驚くべき能力を発揮しました。

定義:
– テキストから音声技術:コンピュータベースのアルゴリズムやモデルを使用して、書かれたテキストを話される言葉に変換すること。
– アンケニー・バレー現象:人間型ロボットや合成音声が人間に近づいているが、説得力を持った人間らしさには至らないという不安や不快な感覚。
– パラメータ:機械学習モデルの文脈で、モデルが学習データから学び、予測に使用する数値です。

関連するリンクの提案:
– Amazon.com
– テキストから音声合成

The source of the article is from the blog krama.net

Privacy policy
Contact