記事検索
最新ニュースIndex

ドコモ、リアルタイムで通訳する「通訳電話」のトライアル


試験サービスの概要

 NTTドコモは、異なる言語間で会話できるようにする「通訳電話サービス」の試験提供を実施する。協力企業・団体での利用は11月9日からとなる一方、400名の一般ユーザーによるモニター公募が11月4日から開始された。

 同社では4日、都内で記者説明会を開催し、取締役常務執行役員の小森光修氏、ネットワーク開発部担当部長の那須和徳氏から説明が行われた。

リアルタイムで処理、対面翻訳と通話翻訳

日本語で話しかけると、その下に英文
「通訳電話」アプリの「対面利用」

 通訳電話は、音声で入力した内容を、翻訳して異なる言語の人工音声にする、というサービス。その場で翻訳する対面翻訳機能のほか、遠く離れた場所にいる人との通話を翻訳する機能が用意され、コミュニケーションを促進するサービスとして位置付けられている。Androidスマートフォンでは専用アプリを用いており、対面翻訳ではそのまま同アプリ上を操作し、音声を入力して翻訳、という流れになる。翻訳内容はテキスト表示と人工音声の再生、という形で相手に伝わる。

 通話での翻訳は、同アプリから通話翻訳機能を選択して、相手に対して電話をかけると、相手のスマートフォンに同アプリがインストールされていれば、アプリが起動する。通話内容は、ドコモのネットワーク上で翻訳され、テキストと人工音声が送出されることになるが、テキストは、通話相手のスマートフォンに専用アプリがインストールされていれば表示される。人工音声は相手に関わらず聞こえるため、同アプリがインストールされていない端末、あるいはスマートフォンではなくフィーチャーフォンや固定電話の場合でも利用できる。

 レスポンスが重視されたとのことで、4日の説明会で披露された通話のデモンストレーションでは、発声から2秒ほどで翻訳後の文字が表示され、その後、人工音声が再生される。担当者によれば、音1つごとに認識処理を行い、逐次、翻訳しているとのことで、「こんにちは」というワードを翻訳する際も、最初に「こん」だけ認識され意味がわからない内容だったとしても、「こんにちは」と全ての音が認識されれば「Hello」と翻訳される。
ドコモ那須氏

 今年5月には、展示会「WIRELESS JAPAN」でデモが行われたが、そこから約5カ月で、基本性能の向上が図られ、日本語の認識率は85%から90%に、英語は60%から80%にあがった。ただし、これは静かな場所での検証結果とのことで、今後は、騒がしい場所での認識率向上も課題の1つ。また方言や、地名などの固有名詞、単語登録数(現在は日本語で40万ほど)などが課題とのこと。また「WIRELESS JAPAN」では、大容量、低遅延といったLTE方式の特徴を活かしたサービスとされていたが、今回の案内では、LTE方式に限らず、音声通話対応の機器であれば利用できると案内されている。

 また日英のやり取りのほか、日韓の会話をサポートし、来年1月下旬には中国語にも対応する予定。男女の声を識別し、翻訳後の人口音声も自動的に選択するようになった。

 来年4月には、試験サービスの拡大をはかる。ユーザーの反応次第では、2012年度以降の商用サービス提供も見込む。
音声の録音、認識、機械翻訳、人工音声の生成、通話の後に人工音声の挿入、といった機能が実行される ネットワーククラウドで利用する機能を変更すると、別のサービスに仕立てることもできる WIRELESS JAPANからの進化点 今後の展開

スピーディな開発を目指す

 これまでドコモでは、音声関連のサービス開発を継続的に行っている。2009年には音声入力のメールサービス、昨年12月には音声による機能呼びだし(音声クイック起動)が実装されたほか今年4月からはボイスメッセージサービス「声の宅配便」を提供している。
ドコモ小森氏

 こうした音声関連の開発を続ける背景について、ドコモの開発部門を担当する執行役員の小森氏は、ドコモが掲げる2020年に向けたビジョン「HEART」、2015年に向けた「中期ビジョン2015」があるとする。同社では、将来的には携帯電話が、ユーザーにとって“アラジンの魔法のランプ”のような役割を果たせることを目標としており、小森氏は「通訳電話」がネットワーククラウドを基盤とした“夢の世界を実現させるサービス”と説明する。ここで言う「ネットワーククラウド」はドコモの造語であり、ネットワークでの処理を行うことで付加価値を提供する、といった考え方を指している。
3つの考え方
ドコモが考える「ネットワーククラウド」

 今回の「通訳電話サービス」は、5月の展示会でのデモからある程度精度が向上したとはいえ、まだ会話内容を誤って認識する可能性、あるいは認識した内容を誤って翻訳する可能性がある。そうした可能性をできるだけ最小にして製品をリリースする、といったやり方が多かったドコモだが、通信技術で付加価値を付ける“ネットワーククラウド”という考え方に加えて、他社の技術を活用する「オープンイノベーション」や、研究者だけではなくユーザーとのやり取りを通じてサービスの開発を促進する「アジャイル(反復型)開発」という考え方も取り入れ、今回は実験的な形であっても、スピーディにサービスを提供することを目指した。このうち、オープンイノベーションについては、今回は、音声認識や翻訳では、外部の技術が用いられている。具体的な協力企業は明らかにされなかったが、「たとえば日本語に強いところ、英語など言語、分野ごと、旅行会話に強いところ、医療に強いところなどがある」(那須氏)とのことで、複数企業の技術をドコモがまとめることで、ユーザーの幅広い用途に応えられるサービスの構築を目指す。

 また「アジャイル開発」について、小森氏は、どのような利用シーンが存在するのか、またユーザーの音声データを収集して精度向上を図るために、試験サービスを開始することになったと説明し、一般ユーザーを対象に400名のモニターを公募すること、15を超える企業や団体も参加することを紹介した。企業・団体の協力を得ることで、外国人が利用する宿泊施設や飲食店、留学生とスタッフ、小売店、医療分野、企業内の国際電話会議などで利用されるとのことで、より実践的なシチュエーションでの開発を進めるという。

 商用サービス自体への意気込みはあるものの、具体的なビジネスモデル、収益形態は未定とのことで、まずは磨きをかけることが大きな目標として提供される。
タイアップした企業・団体でもトライアルを実施 観光分野での利用イメージ 教育分野での利用イメージ 医療分野での利用イメージ

$null




(関口 聖)

2011/11/4 18:23