Androidで人工音声を生成する技術、KDDI研究所が開発

　昨年の東京ゲームショウで「ささやくヤーツ」というAndroidアプリが出展されていた。語尾が独特の喋り方をするキャラクターが、電話やメールの着信、あるいはTwitterの投稿文を音声で読み上げる、というウィジェットアプリだ。

　KDDI研究所開発主査の藤田顕吾氏、研究主査の西澤信行氏、開発主査の渡邊英氏によれば、「ささやくヤーツ」を支えるのは、KDDI研究所の日本語音声合成エンジン「N2（エヌツー）」だという。Androidマーケットでは「N2 TTS」というアプリとして提供されており、「N2 TTS」をインストールすると、Androidスマートフォン上で対応アプリを使って、人工音声による日本語読み上げ機能が利用できるようになる。携帯電話のユーザーインターフェイスの1つとなる「N2」はどのような経緯で開発されてきたのだろうか。

■軽量サイズが大きな特徴

　普段生活する中で、人工音声に接する場面はいくつかある。たとえば電車を利用する際、行き先などを告げる音声も人工音声の一種と言えるが、これは長いセリフを録音して利用するケースが多い。一方、「N2」では、それまで世の中に存在していなかった文章を読み上げるため、音の1つ1つを生成する。さらに、人が読み上げたような自然に聞こえる声を目指している。実際試してみると、100％とは言えないが、多くの文章が自然に聞こえる。先述した「ささやくヤーツ」は、ビジュアル面で美少女キャラクターや執事風の男性キャラクターが用いられており、「～ぞえ」「～げす」と個性的な語尾を付けて喋るため、アニメのキャラクターのような芝居がかった声をつい想像してしまうが、実際に試してみると、感情を抑えた、淡々とした声、という印象で、少し拍子抜けする。「コンピュータが喋っている」という雰囲気が全くないわけではないものの、かなり自然なトーンに聞こえたのも事実。これがAndroidスマートフォンというローカル環境上で動作するのは、数年前には考えられなかった。


ささやくヤーツ

　藤田氏によれば、高齢者や視覚障害者が携帯電話を利用しやすいよう、かねてより音声合成技術の開発が進められてきた。しかし、フィーチャーフォン時代はメモリ容量などから、プリセットできる音声のファイルサイズが限られていた。かつては20～30MBは必要だったとのことだが、フィーチャーフォンでの利用に向けて軽量化が図られた。その結果、「N2 TTS」では音声データやプログラム本体を含め、ユーザーがダウンロードするファイルサイズが5.3MBになった。実行時のメモリ容量も10MB程度となった。

　こうしたファイルサイズの小型化を実現するために「N2」で行われている工夫について、西澤氏は、「（人工音声の生成の仕組みは）人の声を最初に録音して、声を細切れにし、合成時になめらかにつなぎ合わせて、声を生成している」と説明。声を細切れにする、という作業はイメージし辛いかもしれないが、たとえば「か（KA）」という音に対しては「K」と「A」、というように、子音と母音に切り分けるのだという。こうして分離した声は“音素”と呼ばれる単位で扱われ、音素を組み合わせて人工音声を生成する。ただ、これまでの技術では、音素を何の工夫もせずにつなぎ合わせていた。すると、音の波形がぶつ切りの状態でくっついてしまい、人が発声できないような音になりかねない。実はここが工夫のしどころの1つで、今回は詳細まで明らかにされていないものの、軽量サイズのプログラム上で、滑らかに繋がるような処理が取り入れられている。

　さらに、イントネーションやアクセントといった要素も、自然な声に聞こえるようにするために必要な要素で、そのために必要な辞書データも「N2 TTS」には含まれる。もし、イントネーション、アクセントなどを無視すると、漢字の読み間違いもさることながら、意味が通じにくい日本語文となって、聞き手は不快に感じる。

　KDDI研究所の工夫により開発された「N2」は、軽量に仕上げられスマートフォン上で動作するという特性を備えることになった。もともとはBREW向けに開発されてきた技術だったが、技術が完成したときにはスマートフォン普及期を迎えていた。しかもAndroidには音声合成インターフェイスが標準的に搭載されており、日本語エンジンとしての「N2」には絶好の場が整ってきた、と言える。

　一方、音声合成技術と言えば、クリプトン・フューチャー・メディアの「初音ミク」のようなソフトウェアを思い浮かべる人もいるだろう。そうした技術との違いについて、西澤氏は、「音声の作り込みが許容されるかどうか」と述べる。つまり、「N2 TTS」では聴き取りやすい声を簡単に生成できることが求められ、歌唱力やエンターテイメント性を高める“エフェクト”とは追求する方向が異なるということになる。

　またiPhoneの「Siri」などのように、ユーザーが発する音声をスマートフォン上で認識する技術にも関心が高まっている。「N2 TTS」で用いられている技術は、名古屋工業大学の徳田研究室が提唱している、統計モデル（HMM、Hidden Markov Model/隠れマルコフモデル）を音声合成に使うというもの。音声の波形を表わす技術が源流で、音声認識技術では、1980年代からHMM方式が用いられてきたが、その後、音声合成技術のほうでも、同じくHMMを活用することになったという。ただ、「N2 TTS」の発展が音声認識に影響を与えるわけではない。

　今後の課題として、渡邊氏はAndroid以外のプラットフォームへの展開、あるいは音声合成技術の活用アプリの拡大などを挙げる。現在も無料で公開されており、個人開発者が「N2 TTS」を活用するアプリを手がけるといった事例も出てきている。また藤田氏は、文章の“意味”を理解するエンジンを開発する企業で、「N2 TTS」の利用を薦めている、といった事例を挙げ、「N2 TTS」だけではなくさまざまな企業の技術を組み合わせたアプリの開発も可能になってきたと語っており、さらなる拡大も期待できる。コンピューターがユーザーを手助けするエージェント技術の一環として、人工音声は重要な基盤となる部分。今後の発展、活用スタイルの拡大は注目したい。

(関口聖)

2012/1/27 11:00