誰にも聞こえない声を音声認識？ : Silent Voice , 論文紹介 - werry-chanの日記．料理とエンジニアリング

最近タンパク質研が始まって，テーマが決まるまでドキドキワクワクのうぇりーちゃんです．

TOEICの勉強もしないとなぁと思いつつも，なかなか勉強時間を捻出できないです．

一日が90時間くらい欲しい．あるいは影分身10体くらい欲しい．

閑話休題

それでは，今回も論文紹介です．

この論文は，僕も参加したドイツ・ベルリン開催User Interface and Software Technology(UIST)2018のものです．

”SilentVoice: Unnoticeable Voice Input by Ingressive Speech”

著者はMicroSoftの研究者であるMasaaki FUKUMOTOさんです．

表題にあるとおり，

”Silent Voice: 聞こえない声”についての論文です．

本論文では”Silent Voice: 聞こえない声”を音声認識するという内容です．

まず，本論文における”聞こえない声”とは何でしょうか？

ひそひそ声ではないです．

”息を吸いながら発話する”ことが，本論文における”聞こえない声”です．

それでは，”息を吸いながら発話する”ことにどのような利点があるのでしょうか？

まず普通の発話について考えると，普通の発話は周りの人に声が聞こえます．

音が周りに聞こえることは，プライバシーの問題，映画館などの静かにしなければならない環境においてデメリットがあります．

それでは，ひそひそ声で話せば良いだろう．

その通りです．ひそひそ声は周りへの音を軽減しています．

しかしながら，映画館の無音な場面で”ひそひそ声”が聞こえたという経験は誰もがしたと思われます．

このように”ひそひそ声”は，静寂な環境においては際だってしまいます．

さらに”ひそひそ声”は音声認識(発話音をマイクなどで取得して文字化すること)しづらいというデメリットが存在します．

このようなデメリットを克服する発話方法が”息を吸いながら発話する”という方法です．

”息を吸いながら発話する”（今後は吸引式発話とする）方法のメリットは以下のものです．

1．周りに聞こえてしまう音がかなり軽減される．

2．周りの人間には聞き取りが非常に困難なため，プライバシーを保護する．

さて，メリットの２を見てもらうと

「？？？声なのに聞き取りできなかったら意味なくね？？？」

と思うでしょう．

この吸引式発話は，内緒話などに用いることを想定してます．

そして本論文では，吸引式発話を音声認識して文字起こしするシステムを開発したというものです．

吸引式発話を文字起こしして，会話する相手が文字起こしした文章をみればコミュニケーションがとれます．

それでは，どのようにして吸引式発話音声を音声認識したのか．

その方法は，音声認識システムに吸引式発話音声のデータを入れて学習させたのです．

現在用いられている通常の音声認識システムは，膨大な会話音声データを教師データとして機械学習によって音声認識を可能としています．

この音声認識システムに，吸引式発話音声による発話データを教師データとして入力したのです．

もちろん教師データは，”吸引式音声/正解の文章”のセットです．

このように教師データに吸引式音声のデータを入力して，音声認識を可能としました．

またこの吸引式発話の音声データの計測は，通常のマイクとは異なります．

口元に気流を計測する装置を用いて，吸引式発話のデータを測定しました．

大規模な装置を必要としないため，使い勝手も良いです．

しかし，本研究は限定的なフレーズのみの学習を行っており，それらのフレーズのみ認識可能です．

このシステムは今後の膨大なデータを学習することで，現在のような音声認識システムレベルまで認識精度をあげることが期待されています．

いやぁーすごいですねーーーーーーー！！！

まるでテレパシーですね！！

ちょっと言い過ぎ？

とは言っても，今後このシステムの発展によって内緒話がはかどりますねぇ！！

内緒話を聞こえない声で，しかも普通しない発話方法でするなんて，頭良すぎ！！

うぇりーちゃんもこーいう頭良いことしたいですねぇ．．．

コメントなどありましたら，よろしくです．