2016.05.15
この数年で、シリ(Siri)がものすごく使いやすくなった。音声認識精度も上がり、ビジネス利用される事例も増えている。認識精度の向上は話題のディープラーニング学習が功を奏しているためだが、シリはなぜここまで賢くなったのだろうか。これが今回の疑問だ。
精度がめざましく向上したシリ
この数年ほどで、シリの性能がめざましく向上した。昨年、グーグルがグーグルナウの音声認識精度(単語誤り率)を23%から8%に改善したという発表をした。すると、アップルはすぐに「シリの音声認識精度は、以前の45%から5%に改善されている」と発表を行った。最近のシリを使ってみれば、この精度は実感できる。室内の静かな環境では、ほぼ誤りなく認識してくれる。屋外環境(自動車のロードノイズは音声認識の天敵だ)でも、以前はほとんど使いものにならなかったが、現在は実用の範囲内だ。個人的には、リマインダやスケジュールの入力や電話、メッセージ発信のトリガーとして、また、Jリーグの結果や株価を調べるときに愛用している。
このようにシリが実用レベルに達した背景には、最近大きな話題になっている「ディープラーニング」技術の成果が関係している。
過去50年に2度あった「人工知能ブーム」
シリがディープラーニングを採用していると聞くと、シリの会話の受け答えに使われていると思う人もいるはずだ。しかし、ディープラーニングが使われているのは音声認識の部分。なぜなら、ディープラーニングが得意なのは「パターン照合」だからだ。ディープラーニングは、人間のようなウィット、知性、とんちといったものを生み出すわけではない。あいまいな発音であっても、過去の学習経験からパターン認識をして正しい言葉に変換する。これがディープラーニングの得意な分野なのだ。