いまどきの音声入力の実用度を測る|MacFan

レクチャー Macの媚薬

いまどきの音声入力の実用度を測る

文●栗原亮

キーボード入力の次は音声入力の時代といわれています。しかし、実際のところはどのレベルなのかMacで検証してみました。

検索は実用度が高い

macOSシエラに「Siri」が搭載されると聞き、かなり期待しています。というのも、Macではファイルを探すにも、WEBで調べものをするにもいちいちキーボードで単語を入力せねばなりません。特に人名や地名といった固有名詞は、一発で変換できなかったり打ち損じたりしてストレスが溜まりがちです。

音声でのWEB検索については、限定的ではありますがグーグル・クロームの音声入力機能がかなり実用的でしょう。流行りのキーワードなどについては特に認識精度が高いのでキーボードより速い場合が多いです。Siriにも期待していますが、サファリの検索にもこの音声入力機能を搭載してもらいたいくらいです。

ちなみに、iPhoneのグーグルアプリでもこの音声入力が利用可能で、マイクボタンをタップまたは「オッケーグーグル」と話しかけることで検索できます。

本命はテキスト音声入力

とはいえ、私の仕事で必要なのは、単語レベルの音声入力よりはインタビュー音声などの「テキスト起こし」なのです。そこで、Mac標準の音声入力と、グーグル・ドライブの音声入力(グーグル・クロームのみの対応です)を比較してみました。

まず、Macの音声入力は文節を読み上げ終わらないと変換結果を表示してくれないので、長い文章で使うのはスピード的に厳しいレベルでした。意外だったのは、グーグル・ドライブの音声入力です。話しかけるそばから言葉を変換していき、文章が入力されます。変換精度も比較的高く、あとから整形する必要はあるにせよ、口述筆記なら実用レベルです。

ただし、いくつかポイントもあるようで、自分で読み上げる音声の場合の認識率は高いのですが、録音したインタビュー音声など複数人の会話や環境音ノイズが入っている場合の認識率はぐっと下がります。その場合、録音データをイヤフォンで聞きながら、自分の声で読み上げることで音声入力の認識率を上げられますが「聞いた音声をおうむ返しに発声」というのはかなり慣れのいる作業でした。

まだ改善の余地はあるにせよ、音声のテキスト化が自動で行えるようになると、私のような仕事だけでなく、大きなイノベーションを創出する可能性があります。

 

 

(1)グーグル・クロームではすでに検索キーワードで音声入力が使えます。マイクボタンをクリックするひと手間はありますが、かなり高い精度で認識してくれるので実用性が高いです。インターネットでよく出現する単語の認識率は特に高めです。

 

 

(2)グーグル・ドライブでも音声入力が利用できます。ウインドウ内の[ツール]メニューから[音声入力]を選んで、マイクのボタンをクリックしてから読み上げます。長い文章を続けて読み上げても、リアルタイムでどんどんテキストになっていきます。

 

 

(3)OS Xでは、システム環境設定の[音声入力と読み上げ]パネルからは、テキスト音声入力を有効にできます。精度は高いのですが、発声してからいったん間を置かない限りは変換結果が表示されず、続けて長文を入力していくのには時間がかかる印象があります。

 

 

(4)iPhoneで録音した音声をグーグル・クロームで音声入力できるかを試しました。アナログ入力のため若干認識率が下がる傾向が見られましたが、実用的なレベルです。ただし、複数人が参加する会話音声の認識率がかなり低くなります。

 

 

(5)すでに「Trint」のように音声・動画ファイルをアップロードすることで90%以上の精度でテキスト化してくれるサービスが登場しています。現在は英語のみの対応ですが、日本語版のサービスが登場してくれることを期待しています。【URL】https://trint.com

 

 

【もっと媚薬】
iPhoneの音声入力は、OS Xでキーボードからライブ入力するように、リアルタイムでどんどんテキスト化されていくので、口述筆記ならばMacで音声入力するより手っ取り早いです。「メモ」に入力すればアイクラウドで同期されるのでMacで活用するのも簡単です。