彩の国ビジネスアリーナ【その２】 - シンギュラリティ対策室

【その１】とは別人がお送りする、展示会の顛末記です（このblogは複数名で運営しています。文体を見れば一目瞭然ですが）。

2台のSota君の内の1台を私が受け持ちました。

で、何を行ったかというと、当blogでも記事にしました音声認識等のデモを行いました。

もう1台のSota君が健気に~~ポン引き~~^H ^H ^H ^H 客引きを行っている傍ら、こちらのSota君は寡黙に自らの出番を待つ・・・かというとさにあらず。周りの声に反応して、ブツブツと繰り言を呟いていたりしました。

これが今回書きたかった内容なのですが、音声認識のノイズ対策の問題です。

開発中には、さほどうるさい環境でもないので問題なく音声認識を行えたのですが、今回の場所は展示場です。

それらすべてに、Sota君が反応してしまうのです。

私がお客さんと会話をしていると、そばにいるSota君が言葉の端々を拾って脈絡のないセリフを放ったりするのは、コドモが意味も分からずオトナの会話にくちばしを突っ込むようで微笑ましいのですが、ちょっと音声認識のデモとしては頂けません。

ええ、そりゃぁもう、現場でチューニングをしましたョ。

でも、付け焼刃でどうなるものでもないし時間もないので、とうとうあきらめて音声認識サーバの処理結果が見えるように、ノートPCの画面をお客さん側に向けておきました（ほーら、色々処理してるんですよー。すごいですねー）。

もし、展示会で音声認識を行おうと企んでいる方がいらっしゃいましたら、対策は必須ですよ（私がやらなかっただけで、当然のことかもしれませんが）。

さて、展示会は終わりましたが、戦いはこれからです。ということで、音声認識の第2ラウンドです。

今回得た教訓は、

ということでした。

周りがガヤガヤしている時は、認識したい音声とは別の音声をトリガーとして認識を開始してしまいます。なので、認識開始スイッチを設けるのが手っ取り早い方法かもしれません。

あるいは、指向性マイクを入力デバイスとするのもよいかもしれません。

一定レベル以下の音声はノイズとして除去（スレッショルドフィルタ）してしまうという手もありますが、環境に応じて能動的に反応レベルを変える必要があるかもしれません（それこそ機械学習の成果が試せる？）。

いずれにせよ今後の課題ですが、現在別件作業が絶賛発生中のため、また時機を見てトライしたいと思います。

以上、ten＠蓼科情報でした。