こんにちは。
最近注目を集めているスマートスピーカー、Google Home だったりAlexa だったり LINE Clova だったりと色々あるわけではありますが、それらがどう会話を組み立てているのか、というところが気になります。
Voice UI/UXについて調べていたら面白そうな法則を見つけました。1971年、アメリカの心理学者メラビアンさんが提唱した「メラビアンの法則」です。
メラビアンの法則とは、話し手が聞き手に与える影響を数値化したもので、話し手が聞き手に与える影響は言語情報 : 7% 聴覚情報 : 38% 視覚情報 : 55% と言語情報の与える影響は小さく、むしろ視覚から得る情報の影響が非常に大きい、というものです。
そう聞くとスマートスピーカーは非常にコミュニケーションの取りづらい相手というか、、表情が変わらない(というかない)ので視覚情報抜きでのコミュニケーションとなると非常に不利なような気がしてきます。
がしかし、この法則は視覚・聴覚・言語それぞれ矛盾した情報が与えられた場合に、聞き手は話し手の感情をなんだと判断するのか、を検証したものだそうです。スマートスピーカーの感情を判断することはないのでは・・?と思うとこの法則はあまり気にしなくても良さそうです。
結論:考えなくて良いってなんとも言えませんね、、
ということで本日は音声認識に強い株式会社アドバンスト・メディアを取り上げます。
アドバンスト・メディアは1997年に設立された企業で、「人が自然に機械に話しかけるとあたかも人間のように受け答えや記録などの動作をしてくれる、音声認識を中心とした知的ヒューマンインターフェース」である音声認識技術AmiVoiceを核とした事業を展開しています。
僕自身は音声認識といわれても、「ああ、なんか聞いてくれるのね」程度の浅い理解しかないのですが、音響モデル・言語モデル・発音辞書を機械学習させることで音声の正確な認識を実現しているそうです。
自称AIバーチャルYouTuberのキズナアイとAmiAgent(AI対話) AOIの対話を見てみたのですが、認識能力は非常に高い様に感じます。
AmiAgentは大手企業を中心にWeb・スマホでのお客様対応がメインだそうです。一回対応されてみたい・・。