次世代HIを考える（3Dインターフェース＆音声認識）

1998年7月21日

前回に引き続いて、次世代のインターフェースについて考えてみましょう。今回取り上げるテーマは、3Dインターフェースと音声認識です。

インターフェースの3D化？

Microsoft社はWindowsの次世代インターフェースとして、3D化したGUIの導入を検討しているといわれます。
これがOSの標準インターフェースとして採用されたあかつきには、いったいどれくらいのハードウェアのパワーが要求されるのかを考えると恐ろしくなってきます。しかし、過去を振り返って考えると、OSが重くなることによるハードウェア要求の高度化という問題は、GUIが初めて導入されたときの状況とまったく同じです。
確かにハードウェアに過大なパワーを要求するシステムは考えものですが、それによって得られるメリットが十分にあるのであれば、現在のハードウェアの性能向上のスピードから見ても、特に問題とはならないと考えられます。
何といっても重要なのは使いやすさ、そしてそれによってもたらされる、ユーザーの負担の軽減と作業効率の確かな向上なのですから。

さて、3Dインターフェースで何を実現するつもりなのでしょうか？伝えられる情報によると、どうもデスクトップメタファーを3D化することが主目的のようです。
乱暴に推測すると、「実際のデスクトップ（自分の作業空間）は3次元の広がりを持っているのに、それを無理に2次元の平面の世界に閉じ込めているのが現状のデスクトップメタファーだ。ならば、デスクトップメタファーそれ自体を3次元的に表現することで、より実際のデスクトップに近い感覚を再現できる。そしてそのことは、ユーザーの使いやすさにつながるに違いない」というよう判断が働いているように思えます。

しかし、それでは使いやすくはならないでしょう。

3D化にともなう困難－表現と入力

まず、どのようなメタファーを採用するにしても、現在の状況では、結局（各種のディスプレイという）2次元の表示デバイスに表示することを前提としていること忘れてはなりません。
あたりまえのことですが、現状のデスクトップメタファーは、システムの構造をメタファーを通して2次元の作業空間に投影するという、解釈のうえに成り立つものです。単に3次元の実際の作業空間を2次元に移行させたものではないのです。

実際の作業空間が3次元的だから3次元のメタファーを採用するというのであれば、問題の本質をはずしていることは疑いありません。問題の本質は、3次元である実際の作業空間と、3次元を疑似的に表現する2次元平面で動作するシステムとを、どういうメタファーで結び付けるかという、世界の解釈にあります。従って、インターフェースを3次元化するというのであれば、現状のデスクトップメタファーを超えた、新たなインターフェースを概念ごと提案するくらいのつもりでなくてはなりません。単なるギミックと見栄えの良さだけを求めて3次元化するのであれば、すぐに計画を撤回してほしいものです。
ユーザーにとっての使いやすさとは、見た目の格好よさと別の次元で語られるべきであることを忘れてはなりません。

次に問題なのは、3次元の動きを効率良く入力するための入力デバイスがいまのところ存在しないことです。マウスやトラックボールにZ軸（奥行き）方向の動きを入力するための付加システムをつけるという案もありますが、どうでしょう。マウスですら苦戦せざるを得ない初心者ユーザーにはきついことは間違いありません。
もちろん初心者ユーザーだけが苦しむ訳ではありません。2次元の入力デバイスでもって2次元の表示デバイス上に表示された3次元のオブジェクトを扱うことの難しさは、市販の3Dソフトウェアを操作したことのある人ならどなたでもお分かりいただけるかと思います（笑）。
Microsoft社はインテリマウスなどの入力デバイスの開発も行っているので、入力デバイスの革新といった面でも期待したいところです。

しかし、もしも2次元の動きを入力するための入力デバイスを用いることを前提として考えているならば、GUIをわざわざ3次元化する意味はなくなります。意味がなくなるどころか、そのようなインターフェースを採用しようという意識を疑わざるを得ません。インターフェースを3次元化するのであれば、3次元空間を使用することでユーザーの使いやすさと作業効率を向上させる仕組みを構築しなければならないのです。
業界リーダーのMicrosoft社は、このあたりの事情も当然理解した上で開発を進めていると信じます。我々を驚愕させてくれるような、真の使いやすい3Dインターフェースを期待したいところです。

音声認識という流行

最近注目されているもうひとつのインターフェースとして、音声認識があります。テレビCMでもお馴染みですね。
音声認識という方法を取ることによって、キーボードとマウスという既存の入力デバイスを扱うのが困難なユーザーでもパソコンを使用することができるようになります。
両手がふさがった状況で作業をしなければならないような用途でパソコンを使っているユーザーにも喜ばれるでしょう。それに加えて、キーボードアレルギーを自称する多くのユーザーにも福音となるかもしれません。

ここまで見ると良いこと尽くめのような音声認識ですが、そうは問屋がおろしません。ちょっと音声認識の問題について考えてみましょう。
あらかじめお断りしておきますが、少なくとも当研究所はインターフェースの3D化に比べて、音声認識はユーザーに真の使いやすさをもたらす可能性があると考えています。現状でも、特定のユーザー層には十分な力になっていることも否定しません。貶めることではなく、一般ユーザーに広がりを見せるインターフェースとなるためには、こういった問題が見過ごされていないか？という点を指摘するのが今回の目的です。

まず問題なのが、GUIの操作に関しては、音声で指示することが困難であることがあげられます。これはキーボードだけでGUIを操作するのが困難であることと同じ理由です。
基本的に音声入力という入力方法は、キーボードの代替手段として想定されているので、キーボードというデバイス自体が苦手にしている操作は、音声入力でも苦手な場合が多いことをあらかじめ考慮しておかなければなりません。

次に問題なのが、日本語入力に関係する問題です。この問題を解決できるかどうかに、日本で音声認識が普及するかどうかがかかっている、といっても過言ではないでしょう。
キーボードで文字を入力する代わりに、マイクに向かってしゃべること自体には問題はありません。問題は文字変換と、そのあとの操作にあります。
確かに英語圏では音声入力だけでことが済むでしょう。訛りや発音のクセという個人的な「ゆらぎ」にも何とか対処できると考えられます。
しかし、日本語ではそうはいきません。日本語にはご存じの通り、漢字変換という難関がありますが、現実的に100%の変換率はありえません。当然のことながら、再変換の指定や、文節区切りの変更といった操作をあとからしなければならないのです。

では、どうやって指定しましょうか？　実はこういったことを音声で指定できるようになるためには、あらかじめ重大な問題を解決しておかなければなりません。
現在の技術を考慮に入れると、「あ、ちょっと前」とか、「このへんで」という、まさにユーザーが音声認識で利用したいと思う、アバウトな指示語では操作できないことは確実です。おそらく、「1語だけ前へ」や「次候補」といった、メーカーの指定した操作指示語を用いなければならないことになるでしょう。
しかしこれでは、CUIのコマンドラインを覚えなければならなかった状況と全く同じではありませんか。GUIによってコマンドの記憶という苦行から解放されたのに、これではまたしても苦行に逆戻りです。

そうならないためには、音声認識システムに日本語の自然言語解析システムを追加して、ユーザーがアバウトな指示語で要求していることを的確にサポートできることが絶対に必要です。
発音のクセといった音のゆらぎだけでなく、言語の使いかたという文法や語彙のゆらぎをサポートするシステムがなければ、音声認識システムは決して一般ユーザーのためのものとはならないでしょう。
そういった意味では、一般ユーザーの求めているものは音声認識インターフェースではなく、音声を媒介とした対話型インターフェースであるといえるのかもしれませんね。

音声認識というインターフェース自体に潜むこういった問題を解消することなしに「これこそ使いやすいインターフェースの決定版！」とメーカーや新聞雑誌があおったりしないことを（彼等の今までの行動パターンを見ているとやりかねないのが恐ろしいところです）、切に祈りたいところです。
皆様、決して素直に騙されてはなりませんぞ（笑）

次世代HIを考える（3Dインターフェース＆音声認識）

インターフェースの3D化？

3D化にともなう困難 － 表現と入力

音声認識という流行

3D化にともなう困難－表現と入力