« 明るい蛍光灯 | トップページ | JTAGケーブルの新製品 »

2006.07.15

リアルタイム音声認識

RSコンポーネンツでは書籍も扱っているので、ためしに注文してみました。
「リアルタイム音声認識 電気情報通信学会 ISBN4885521955」

以前から音声認識には興味があったので、どんなものかと思って読んでみました。

音声認識というのは、音声を「ア」とか「サ」とかのようなカナ文字に変換してからカナ漢字変換しているのではなく、音声を直接漢字かな混じり文に変換しているそうです。

要約すると、音をフーリエ変換して、ケプストラムを作ったり数学的な処理をしてウン十次元のベクトルにして特徴量をつかんで、マルコフ過程やら統計だとかビダビとか最尤とかして、いろんなことをして「ア」とか「k」とかの音を推定して、辞書とか統計とかから最ももっともらしい言葉のつながりを推定して、音声を文章に変換しているそうです。

もちろん辞書に登録されていない単語は認識できないけど、認識できない単語は「認識できない」と判断するのではなくて、適当に誤認識されてしまうそうです。
つまり100%確実な音声認識というのはできないそうです。
精度を上げるには、ジャンルによって辞書を変えるということも大事です。

まぁ、そんなものかもしれません。
人間だって100%確実に他人の言葉を聞き取れるわけじゃないですから。
数学の話をしているときにいきなり政治の話をされたら、混乱します。

面白いと思ったのは、NHKがリアルタイム音声認識を文字放送に応用しているということです。
ニュース番組では、放送の直前まで原稿が変わることがあるし、
最終的にはアナウンサーがしゃべった言葉がアウトプットなので、
文字放送の原稿を打ち込むのが大変だったそうです。

そこで、音声認識を使って、アナウンサーの言葉を自動的に文字に変換して、
文字放送を作っているそうです。

でも、アナウンサーというのは、カツゼツもよく、しゃべる内容も原稿にしたがっているし、
ニュースという番組の性質上辞書も作りやすいので、
比較的音声認識しやすい環境だそうです。

難しいのはバラエティー番組やスポーツ中継など、複数の人がしゃべったり、
思いついた言葉をポンポンしゃべるような場合だそうです。
たとえば、それで紅白歌合戦やサッカーの試合などの場合などです。
感動詞も多いし、言葉が必ずしも文法に従っていないので、
音声認識は難しいそうです。

そのため、NHKには「リスピーカー」という専門の人がいるそうです。
リスピーカーは、生放送の音声を聞いて、複数の出演者が喋る内容を整理し、
良い発音と正しい文法で喋り直すそうです。
そんで、音声認識装置はリスピーカーの喋る内容を音声認識して、
文字放送を作るそうです。それはそれですごいかも。

やはり人間の音声認識能力って偉大なんですね。

機械で音声認識をするには、用途を絞ることが大事なようです。
そんなこんなで音声認識をFPGAに実装できたら楽しいだろうな。夢が膨らみます。

|

« 明るい蛍光灯 | トップページ | JTAGケーブルの新製品 »

コメント

コメントを書く



(ウェブ上には掲載しません)




« 明るい蛍光灯 | トップページ | JTAGケーブルの新製品 »