NEC与NEC电子日前开发成功了在手机应用处理器上可快速进行语音识别的软件。这次开发的产品带有单词量从数千到数万个不等的词典,不仅能以单词为单位,还能实时识别常用会话中使用的自然语言。
所使用的处理器为在芯片上配置了多个CPU内核的“MP211”(NEC电子生产)。工作频率为200MHz。双方此次开发的技术通过将有关语音识别的一连串处理分割成多个步骤,然后在多内核的MP211上并行处理,提高了识别速度。具体说来,就是分成“参照输入的声音对语音模型的类似程度进行计算”、“缩小检索范围”和“从缩小的范围中检索最佳单词列”三个步骤。再将其作为3级管线构成完整的识别处理。各种处理在各CPU内核上同步进行。
两公司称,利用此次的技术,就能实现单靠手机即可实时运行的语音检索应用。作为语音识别的用途,双方设想的是手机电子手册的检索。比如,目前已经试制出当用户说出“告诉我如何更改邮件地址”,就能立刻从电子手册中检索出相关页面的系统。
一般而言,语音识别处理要求微处事器要有很高的运算性能。因此,NEC过去曾设想过通过电话线路、利用远程服务器进行识别处理的方法。但却存在着线路接入处理复杂、处理时间长等问题。 |
NECとNECエレクトロニクスは,携帯電話機向けアプリケーション・プロセサ上で,短時間で音声認識が可能なソフトウエアを開発した。今回開発したモデルでは,数千語から数万語クラスの辞書を備えており,単語単位ではなく,通常の会話で使用する自然語をリアルタイムに認識できるという。
利用したプロセサは,チップ上に複数のCPUコアを搭載する「MP211」(NECエレクトロニクス製)である。動作周波数は200MHz。今回両社が開発した技術では,音声認識に関する一連の処理を複数のステップに分割,それをマルチコアのMP211上で並列処理することで認識処理を高速化した。具体的には,「入力した音声と参照する音モデルの類似度の計算」「探索範囲の絞り込み」「絞り込んだ範囲からの最適単語列の探索」の3ステップに分割する。これにより,認識処理全体を3段のパイプラインとして再構成する。それぞれの処理は各CPUコア上で同時に実行する。
両社は今回の技術によって,携帯電話機単体でリアルタイムに動作する音声検索アプリケーションを実現できるとしている。音声認識の用途として両社が想定しているのは,携帯電話機の電子マニュアルの検索である。例えば,ユーザーが「メール・アドレスの変え方を教えて」と発声すると,電子マニュアルから関連するページを即座に検索できるシステムを試作した。
一般に,音声認識処理はマイクロプロセサに高い演算能力を必要としていた。このため,NECは従来,電話回線を経由して遠隔地のサーバで認識処理させるような手法を想定していたが,回線接続のための処理が複雑になる,時間がかかるといった問題があった。 |