音声体験設計における課題と理想

2020.07.17

音声体験設計における課題と理想音声アシスタントを相棒にするために何ができる？

WD ONLINE限定連載「音声コミュニケーションを学ぶ」。4回目は音声体験のデザインに取り組むうえでの課題と理想について。VUI/VUXデザイナーの京谷実穂さんが、生活を豊かにするための音声体験づくりについて教えてくれました。

SF映画に出てくる相棒のようなVUI

SiriやGoogleアシスタント、Alexaが登場したとき、SF映画のような世界を想像した方も多くいらっしゃると思います。映画『アイアンマン』では主人公のトニー・スタークの高度な命令をバーチャルアシスタントのジャービスが瞬時に解決してくれますが、同様にユーザーのコンテキストを正しく判断して「相棒」のような存在になる音声アシスタントが期待されているのではないでしょうか。

しかしながら、現在の私たちと音声の関係を考えると、スマートスピーカーや音声アシスタントのアプリをうまく使いこなせないことも多く、相棒からは程遠い存在のようにも感じてしまいます。

どんな課題が解決すれば音声が相棒的存在になり、私たちの生活を豊かにしてくれるのでしょうか。今回は、音声体験における課題を整理したうえで、現段階でもできるベストな体験設計を考えていきます。

現在の音声体験にある3つのハードル

1. 端末やアプリを起動する手間

SF映画のような相棒を実現するためには、いつでもどこでも思いついたときに話しかけることができる状態が理想です。しかし、現状では近くにスマートスピーカーがなかったり、わざわざ音声アシスタントのアプリを開いて話しかける必要があり、このちょっとした手間がスムーズな利用を妨げていると考えられます。

しかし、この手間は今後デバイスの発展によって解決していきます。例えばAppleのAirpods Proは、耳に装着して「Hey, Siri」と話しかけるだけで、音声アシスタントであるSiriを起動できます。

また、IoTの文脈でも、Alexa搭載のカーナビやスマートホームなど、スマートスピーカーという限定したデバイスに限らず音声アシスタントが当たり前に生活の導線に埋め込まれた状態が近い将来訪れ、この課題は解決するでしょう。

2. 情報取得の難易度

第2回目の記事でもお伝えしたとおり、VUIには得意と不得意があり、ユーザーが例えば「乗り換え案内」のような複雑な情報を音声だけで受け取るのは難しいです。AlexaやGoogle Nestなどで画面付きの端末がでているのは、ユーザーから情報をインプットするのは音声が早いけれど、アウトプットは視覚情報で受け取る、という用途が多いということです。

音声と視覚情報をいったりきたりできるようなシームレスな体験が実現されるようになると、音声だけの体験よりハードルが下がり、徐々に音声が生活に浸透していくように感じます。

「OK, Google おいしいカレー屋さんを探して」というと、検索結果の一覧は画面の情報として受け取れる、という利用シーンはすぐにあたり前になるでしょう。

3. 言葉が意図通りに認識されない

AlexaやGoogle Nestのデモを見ると英語での対話はとてもスムーズにできているように見えます。一方私たちが日本語で音声アシスタントを利用すると思い通りに言葉が伝わらず誤認識が多いことでストレスを感じる場面が多くあります。また、音声は老若男女が扱えるインプット方法であるという強みがある一方で、子供やお年寄りの発音を聞き取りづらいという残念な側面もあります。

日本語は言語の構成の複雑さや敬語などの種類があるため、英語よりも認識の精度を高めるのが難しい言語です。

VUIが使えるデバイスが普及して、ユーザーが活用するようになると、音声サンプル数が増えるため機械学習が進みます。ここ数年で誤認識がだいぶ減ったな、という感覚があるので、徐々に改善されていくでしょう。

今できる2つのベストな体験設計

1. ルーティーンに組み込む

AlexaやGoogle Nestにはルーティーンの設定機能があります。スマートスピーカーに「おはよう」と話しかけたあとに順番に流して欲しい音声を設定することができます。朝起きてベッドのなかで「OK Google, おはよう」と言うと、家の電気が付き、お天気やニュース、今日の予定が流れます。ゆっくりとベッドから起き上がる頃には朝に必要な情報を一通り把握している状態になっています。

音声とのタッチポイントをつくりたいと考えられているのであれば、まずはルーティーンに組み込まれるコンテンツをつくると良いかもしれません。

2. 音声と視覚情報の良いとこ取りをする

Google NestのSpotifyで音楽を聴きながら、iPhoneでSpotifyアプリを起動すると、今Google Homeで流れている曲名/アーティスト名が表示され、アプリ上で「いいね」ボタンを押すなどのリアクションをすることができます。

これを全て音声でやろうとすると、音楽が流れているところを中断して「今流れてる曲名を教えて」と話かけて、音声アシスタントがアーティスト名や曲名を読み上げるのを待たなければならず、スムーズな体験とは言えません。音声と視覚のそれぞれの良いところを活かすことで、音声活用の価値が高まります。

ーーー

技術的な問題については発展を待つしかありません。でも、体験設計の工夫によって音声を相棒のように快適に使いこなせることもあります。

実際に筆者は朝起床してから夜寝るまで、音声が欠かせない生活を送っていますが、現段階でも快適な音声体験のために工夫できることがあると感じています。

本連載の次回の公開予定は2020/9/18（金）。次は「VUI/VUXデザイナーに求められる力」というテーマを予定しています！

京谷実穂さん
2008年筑波大学芸術専門学群卒業後、2017年まで富士通デザイン株式会社で自社モバイル製品のデザイン開発、デザイン思考による新規事業開発に従事。2017年株式会社Voicyに4人目のメンバーとして参画。プロダクトのUI/ UXデザインに加えて、音声体験のデザイン（VUI/VUX）を手がける。

株式会社Voicy
「音声×テクノロジーでワクワクする社会をつくる」をコーポレートビジョンに掲げ、1)ボイスメディア「Voicy」の開発運営を行うボイスメディア事業、2)音声による企業のコミュニケーション課題の解決を行う音声ソリューション事業、3)IoT時代の未来の社会を担う音声インフラ事業を展開。音声と技術で人と情報のあり方を変えて、人々の生活をより豊かにすることを目指している。https://corp.voicy.jp