ディープラーニングで人間のような自然な音声を話すWaveNetがGoogleアシスタント搭載の新ハードウェアに搭載

ディープラーニングで人間のような自然な音声を話す「WaveNet」がGoogleアシスタント搭載の新ハードウェアに搭載


Googleの人工知能開発部門「DeepMind」が開発を進めてきた、人工音声を生成するニューラルネットワーク「WaveNet」がGoogleの音声アシスタント「Googleアシスタント」に搭載されました。
これにより、英語と日本語の2言語でより自然な人工音声が利用できるようになります。

WaveNet launches in the Google Assistant | DeepMind
https://deepmind.com/blog/wavenet-launches-google-assistant/

The Google Assistant, powering our new family of hardware
https://www.blog.google/products/assistant/google-assistant-powering-our-new-family-hardware/

DeepMindが開発を進めてきたWaveNetは、人工音声の生成レベルをワンランク上にレベルアップさせる技術。
以下のサンプル集では、既存のTTS音声とWaveNetによる音声サンプルが公開されており、英語の音声3パターンと、日本語の音声1パターンを新旧で比較することが可能です。
(合計4パターンの比較あり。
スマートフォンの場合はスクロールすれば確認できます)

WaveNetと既存の人工音声の最も大きな点が、その生成技術にあります。
既存の人工音声で用いられているテキスト・トゥ・テキスト(TTS)技術では、基本的に細切れにされた大量の音声データベースを用意した上でこれらの単語をつなぎ合わせる技術だったのに対して、WaveNetでは、畳み込みニューラルネットワークによるディープラーニング技術を使うことで、サンプリングした人間の音声波形を細かく細分化して解析し、自然な発話に近い声を生成するというものとなっています。


WaveNetを使った人工音声は、Google Home MiniやGoogle Home Max、Pixel phone、Pixelbook/Pixelbook Pen、Pixel Budsなど、Googleアシスタントを搭載するハードウェアに実装されているとのこと。
今後はさらにAndroidスマートフォンへの導入も進むものと考えられます。
DeepMindによる研究論文は以下のリンクから閲覧することが可能です。

WAVE NET: A GENERATIVE MODEL FOR RAW AUDIO 1609.03499.pdf
https://arxiv.org/pdf/1609.03499.pdf

こちらからコメントの記入が行えます

*

ピックアップ記事