au、「EZナビウォーク」に音声認識の検索機能

最新ニュースIndex

【 2009/06/26 】

■	携帯フィルタリング利用率は小学生で57.7％、総務省調査［17:53］

■	ドコモ、スマートフォン「T-01A」を28日より販売再開［16:47］

■	ソフトバンク、コミュニティサービス「S!タウン」を9月末で終了［15:51］

■	ソフトバンク、ブランドキャラクターにSMAP ［15:34］

■	カシオ、携帯での閲覧にも対応した画像変換ソフト［14:56］

■	テレビ朝日、iモードで動画配信「テレ朝動画」を開始［13:54］

■	ファーウェイ、東京に「LTEラボ」開設［13:22］

■	SoftBank SELECTION、iPhone 3GS向けケース3種発売［13:04］

■	「G9」の文字入力に不具合、ソフト更新開始［11:14］

■	アドプラス、iPhone 3G向けコンバージョンレンズ［10:41］

au、「EZナビウォーク」に音声認識の検索機能

「声de入力」の概要

まずは、今後発売される新機種のEZナビウォークで利用できる

　KDDIと沖縄セルラーは、auの携帯電話に、音声認識技術を活用した新機能「声de入力」を搭載すると発表した。2月上旬からは、EZナビウォークの検索機能として「声で乗換検索」「声で目的地検索」という新機能が用意される。

　「声de入力」には、サーバーと携帯電話の両方に音声認識機能を備え、処理を分散させるという“分散型音声認識機能”が活用されている。EZナビウォークでは、鉄道の乗り換え経路や目的地を調べる場合に「東京から大阪まで、10分後に出発」「東京都千代田区三番町」などと喋るだけで、ナビゲーション機能が利用できるようになる。分散型音声認識の「声de入力」で目的地検索をする場合、携帯電話本体では、ユーザーが喋ってた内容をまず録音し、その内容から「とうきょう」「おおさか」「10分後」と検索条件になる語彙を抽出するところまで処理される。

　抜き出されたデータは、パケット通信でサーバー側に送信され、サーバー上で「“とうきょう”＝東京」とデータベースに登録された語彙とマッチングさせて、その結果を携帯電話側に返信する。ユーザーからすれば、携帯電話に喋りかけるだけで、検索結果が画面に表示される、という流れになるが、実際の処理は携帯とサーバーに分かれて行なわれているため、“分散型”と呼ばれる方式になる。

　「声de入力」の場合、音声認識処理を行なう際に発生するデータ通信は全てパケット課金。1回の検索で発生する通信料は、送信する語彙の長さによって変化するが、約1KB～2KB、多い時で3KB程度。CDMA 1Xの「パケット割」適用時で1回3～4円程度になるという。「声de入力」に対応したCDMA 1X WIN端末が登場すれば、通信料はダブル定額の範囲内に含まれる。

　屋外で音声認識の制度を高められるように、2種類の音声認識エンジンが用意されており、雑音を検知して、雑音に強い処理方式か処理の早い方式のどちらを使うか自動的に選んでいるという。また認識がうまく行かなかった場合、その原因を推定する「エラー原因判別機能」も用意されており、「周囲の雑音が大きい」「喋るスピードが遅い」など原因を推定して、改善方法をアドバイスする。

　認識結果が画面上に反映される際、そのまま入力フォーム内に認識結果が表示されるが、場合によっては、複数の候補が選べるようにプルダウン表示される場合もある。

　声の入力はイヤホンマイク経由でも可能。「声de入力」は、ネイティブアプリとして実装されているため、既に発売されている機種では利用できないが、2月以降に登場するEZナビウォーク対応機種には、「声de入力」が標準搭載されるという。

　EZナビウォークのメニュー内には、同機能を試用できるコーナーも用意される。


利用手順のイメージ	体験コーナーも用意される


EZナビウォークの乗換メニューに「声で乗換検索」	選ぶと、検索条件を求めてくる


まず端末内で語彙を抽出。1秒程度かかった。抽出後にサーバーへ送信する	処理が終わると画面上に検索条件を指定した形で表示


「声で目的地検索」はナビメニュー内に	どのジャンルで検索するか選択する	住所検索したところ


乗換検索と同じように、端末内で語彙抽出する	処理結果が表示されたところ	この後は、従来のEZナビウォークと同じく、地図表示でのナビゲーションに


処理の結果、認識候補が複数あると、プルダウン表示される	エラー原因を判定する機能も備わっている

■ 入力の補助として提供

KDDI 幡氏

「声de入力」は分散型音声認識技術を用いている

　KDDIは12日、都内で報道関係者向け説明会を開催。同社 au商品企画本部モバイルサービス部サービスグループ課長の幡容子氏から説明が行なわれた。

　同氏は「携帯電話の入力方法には日々工夫を重ねているが、テンキーでの入力そのものが難しい、ということがあるかもしれない。そこである程度、補助できるものを導入したいと考えた」と新機能導入の動機を語った。

　同社では、「声de入力」で用いられている分散型音声認識機能は、今回世界で初めて携帯電話に搭載されたと案内している。なお、携帯電話向けの音声認識機能としては、サーバーと通話しながら音声認識させる「通話型」や、あらかじめ録音していた言葉で携帯に喋りかけると、指定の電話番号へ発信する機能などに用いられている「内蔵型」が既に登場している。

　通話型や内蔵型に比べて、今回の分散型のメリットとして幡氏は「通話型では“東京から大阪まで、10分後に出発”という内容を認識させる場合、まず“東京”と喋って、出発地として入力し、次に“大阪”と喋って現在地を入力する。1つ1つの単語を入力するたびに、音声通話とデータ通信を交互に切り替えなければ行けない。また、内蔵型はシンプルな操作性を実現できるが、CPUやメモリ容量の兼ね合いもあって、認識できる語彙に限りがある。一方、分散型では、認識処理そのものは高性能なサーバーで行なえ、データ通信のみで完結できる」と指摘し、通話型・内蔵型の利点を兼ね備えた方式が分散型であるとした。

　システム側に学習機能はなく、ユーザーからのフィードバックを受け付ける機能もないとのことだが、「声de入力」での話し方のコツとして、幡氏は「はっきり大きく喋らなきゃいけない、ということではなく、通常の通話と同じ話し方のほうが認識されやすいだろう。“飯田橋の図書館”で検索する場合は『いいだばしの』『としょかん』と区切ったほうが認識されやすい」と説明していた。

　同社では今後、BREWアプリで「声de入力」を利用できるAPIの公開を検討していくほか、他のアプリケーションでも音声認識機能を活用するかどうか、「前向きに検討していく」（幡氏）としている。


分散型は、通話型や内蔵型の“良いとこどり”だという	通話型と比較した場合、画面遷移の数が大幅に異なる

■ ＵＲＬ
　ニュースリリース
　 http://www.kddi.com/corporate/news_release/2006/0112/

■ 関連記事
・ au、フレンドリーデザインや子供向けなど新端末3モデル

（関口聖）
2006/01/12 14:33

ケータイ Watchホームページ