【第23回】世界最高の音声認識技術で夢の市場を開拓する企業の目標

株式会社 アドバンスト・メディア

世界で著名な専門技術ニュースが「ベスト」と評価
 
ASR News(Automatic Speech Recognition=自動会話認識)という、著名なアメリカの音声認識技術専門ニュースが4月の第19号でとり上げた記事が専門家たちの注目を集めた。それは、富士通とアドバンスト・メディア、NTTドコモの3社がアプローチする技術が世界で最高のものだと賞賛する記事だった。一体何の技術がそのような賞賛を受けたのか? それはNTTドコモのらくらくホンプレミアム(富士通製)に搭載された音声によるメール入力システムに対してだった。

らくらくホンプレミアムには、この記事の通り音声認識技術が搭載されており、しゃべるだけでそれが文字化され、メールとして発信されるサービス(有料)があるのだ。これが世界初の技術だという。
 
この技術を開発したのが(株)アドバンスト・メディア。音声認識技術では世界をリードするエキスパートである。同社社長の鈴木清幸は「この技術は日本よりむしろ世界で注目されている」と言う。なぜなら、日本では若い人を中心にメールを打つ習慣が定着したが、これは日本人だからできる技で指の太い欧米人には馴染まないのだそうだ。だから、もっぱら海外ではボイスメールサービスが使われている。だが、ボイスメールは面倒が多い。だから、この技術を使えるのなら、あっという間に世界を席巻する可能性が出てくるというのだ。海外で注目され、専門誌でベストの評価を受けたのもそこに理由があるわけだ。
 
コンピュータに向かってしゃべれば、自動的にテキストデータに変換したり、さまざまな処理をしてくれる音声認識は、言わば夢の技術。その実用化でトップを走るのが同社である。この技術を体験した人は一様に驚きの声をあげる。
 
例えば同社のプレゼンテーションルーム。社長の鈴木が、立て続けにマイクにしゃべる。「部屋を暗く」。すると部屋が暗くなる。「テレビスイッチオン」。テレビが点く。「NHK」、「6チャンネル」。画面はそれぞれに変わっていく。そして「これが音声認識です」と結ぶ。
 
音声認識の技術は、その魅力的な響きとは裏腹に使えない技術として有名だった。98年に日本IBMが発売した「Via Voice」も普及はしなかった。使う手間がかかるだけでなく、認識率もそれほど高くなかったからだ。
 
だが、1997年に設立された同社は、その間、音声認識一筋に研究開発を進めていた。社員約80名のほとんどが技術系社員。この技術が結実して、冒頭のような実にスムーズな(音声による)入力などのコンピュータ操作が可能になるのだ。
 
こうした技術の実用化で業績を伸長させて、同社は2005年6月東証マザーズに上場を果たしている。


誰がしゃべっても同じように認識してくれる夢の技術
 
実は同社の技術は、他社の技術と大きな違いがある。少し専門的な話になるが、多くの企業の音声認識技術は、特定の人間がしゃべった声を認識する。つまり特定話者対応というわけだ。そのため事前に自分の声を登録し、練習する必要がある。しかもこの技術を一般的な用途に使うため、認識しなければいけない語彙が多岐にわたり、これも認識率が低くなる要因となっている。
 
それに対してアドバンスト・メディアの技術は、だれがしゃべっても同じように認識する、不特定話者に対応しているのだ。ここに技術の凄さがある。
 
さらに言えば、その技術を実用上で生かすために、特定分野に絞って使うよう営業戦略を採ってきた。例えば音声入力による医者のカルテ作成ソフト「Ami Voice Ex」や、営業日報作成用のシステム「AmiVoice Reporter」、また議会用の議事録作成支援システム「AmiVoice」などがそれだ。こうした戦略により、さらに「使える技術」になったのだ。こうした戦略も海外で花開く可能性が高まっている。
一つ例を示そう。アメリカでは医者のカルテ作成は、医者がしゃべるのを口述筆記者がタイプしていく方法をとっている。タイプしたカルテが義務付けられているからだ。しかし現在は、この口述筆記の部分が音声認識に取って代わってきた。口述筆記者はその間違いを訂正する役割で、これによってコストが大きく下がる。そこに何百億円というマーケットができている。
 
だが、この技術で優れているのはアドバンスト・メディアの技術。ここでも同社の技術は注目されているし、本格的に進出することにより、大きな成長を見込めるのである。


携帯でも音声が劣化しない凄さ
 
だが、同社の最終目標は、もちろん一般市場で広くこの技術が使われるようにすること。冒頭で紹介したように、その端緒は現れつつあるが、それを支えているもう一つ優れた技術がある。それがDSRという技術だ。
 
DSRとはどんな技術か。例えば携帯で音声が送信される場合、音声データが圧縮されて送られるために劣化が起こる。ところが、あらかじめ携帯にDSRが搭載されていると、音声が送信される前に音声認識の前処理が行なわれるので、データ送信のために圧縮されても劣化しない。この技術があるからこそ、高精度の音声認識が携帯電話で実現できるのだ。
 
前述したらくらくホンの音声によるメール入力もこの技術あってのことだし、このサービスはらくらくホンだけでなく、これからの携帯になくてはならないサービスになるだろう。
 
実は、同社は一昨年の「アントレプレナー・オブ・ザ・イヤー」の日本代表に選出された。昨2007年には、モナコの世界大会に日本代表としてプレゼンテーションを行なった。
 
その時のプレゼンテーションが光っていた。鈴木が携帯で日本語でしゃべるとその電波は日本に飛び、サーバーで翻訳され、その翻訳した文章を英語で送り返してきたのだ。そこに集まった人が、驚きの声を上げたのは言うまでもない。
 
鈴木は、京都大学工学部出身のエンジニアだけあって説明がシャープである。熱情をもって流れるように自社の説明をする。社長自身がこの音声認識技術に対して揺るぎない確信を持っており、その確信とそこから生まれる自信こそが、同社の原動力なのだとつくづく感じる。驚異的な成長を期待したい会社であることは間違いない。

(2008・5・20)


トップページ -> なぜこの企業が凄いのか -> 【第23回】世界最高の音声認識技術で夢の市場を開拓する企業の目標