読者です 読者をやめる 読者になる 読者になる

シンギュラリティ対策室

シンギュラリティは本当にくるのか?人工知能分野(おもに機械学習)の学習。その他いろいろ。

彩の国ビジネスアリーナ【その2】

【その1】とは別人がお送りする、展示会の顛末記です(このblogは複数名で運営しています。文体を見れば一目瞭然ですが)。

2台のSota君の内の1台を私が受け持ちました。

で、何を行ったかというと、当blogでも記事にしました音声認識等のデモを行いました。

「事件は会議室で起きてるんじゃない!現場で起きてるんだ!」

もう1台のSota君が健気にポン引き^H ^H ^H ^H 客引きを行っている傍ら、こちらのSota君は寡黙に自らの出番を待つ・・・かというとさにあらず。周りの声に反応して、ブツブツと繰り言を呟いていたりしました。

これが今回書きたかった内容なのですが、音声認識のノイズ対策の問題です。

開発中には、さほどうるさい環境でもないので問題なく音声認識を行えたのですが、今回の場所は展示場です。

  • 常時聞こえる周囲の人々の話声。
  • 私達のブースに立ち寄ったお客さんとの会話。
  • 時折放送される場内アナウンス。

それらすべてに、Sota君が反応してしまうのです。

私がお客さんと会話をしていると、そばにいるSota君が言葉の端々を拾って脈絡のないセリフを放ったりするのは、コドモが意味も分からずオトナの会話にくちばしを突っ込むようで微笑ましいのですが、ちょっと音声認識のデモとしては頂けません。

そして僕は途方に暮れる

ええ、そりゃぁもう、現場でチューニングをしましたョ。

でも、付け焼刃でどうなるものでもないし時間もないので、とうとうあきらめて音声認識サーバの処理結果が見えるように、ノートPCの画面をお客さん側に向けておきました(ほーら、色々処理してるんですよー。すごいですねー)。

もし、展示会で音声認識を行おうと企んでいる方がいらっしゃいましたら、対策は必須ですよ(私がやらなかっただけで、当然のことかもしれませんが)。

僕にできるすべて

さて、展示会は終わりましたが、戦いはこれからです。ということで、音声認識の第2ラウンドです。

今回得た教訓は、

  • 音声を受信したときを認識契機にしてはいけない。
  • 対象者以外の音声を拾ってはいけない。

ということでした。

周りがガヤガヤしている時は、認識したい音声とは別の音声をトリガーとして認識を開始してしまいます。なので、認識開始スイッチを設けるのが手っ取り早い方法かもしれません。

あるいは、指向性マイクを入力デバイスとするのもよいかもしれません。

一定レベル以下の音声はノイズとして除去(スレッショルドフィルタ)してしまうという手もありますが、環境に応じて能動的に反応レベルを変える必要があるかもしれません(それこそ機械学習の成果が試せる?)。

いずれにせよ今後の課題ですが、現在別件作業が絶賛発生中のため、また時機を見てトライしたいと思います。

以上、ten@蓼科情報でした。