「AmiVoice」の音声認識はなぜ精度が高いのか
スマホの音声入力を試してみたことがある人は結構いるようですが、音声入力をメインで使っている人はあまり見かけないような気がします。
スマホに向かって話しかけるのは「恥ずかしい」「人目が気になる」など、まだ音声入力に慣れていない人が多いようです。
しかし、コールセンターや医療機関など、仕事の現場では音声入力の活用が進んでいるようです。
このような状況の中で、株式会社アドバンスト・メディアはAI音声認識「AmiVoice」を提供しています。
今回は、株式会社アドバンスト・メディアの取締役 事業本部長大柳 伸也様よりAI音声認識「AmiVoice」についてお話をお伺いしています。
音声認識技術の進化とともに
御社の業務内容について教えていただけますでしょうか?
株式会社アドバンスト・メディアは、現在代表取締役会長兼社長である鈴木清幸が1997年に創業した音声認識専業ベンダーです。
鈴木はカーネギーメロン大学のスピンオフカンパニーで第2次AIを学び、その普及に努めました。CMUで、音声認識の中心メンバーと出会い、音声認識がAIの普及の鍵となる大きな可能性を見出します。CMUのメンバーが1997年11月にISIを設立し、12月に鈴木がアドバンスト・メディアを設立し、日米における音声認識の同時市場開拓を目的とした事業を開始しました。
主な事業は「AmiVoice」をサービス利用の形で提供するサービス事業、「AmiVoice」を組み込んだアプリケーションをライセンス販売するプロダクト事業、音声認識ソリューションの企画・設計・開発を行うソリューション事業です。
御社はかなり早くから音声認識に取り組まれていたのですね。
音声認識の研究が始まったのは1950年代、第1次AIブームの頃でした。弊社が設立されたのは第2次AIブームが終わった頃です。
2010年代の第3次AIブームでは、音声認識にディープランニング技術が実装されるようになり、音声認識の精度が向上しました。
2022年にChatGPTなど生成AIが出てきて、第4次AIブームが始まったと言われています。オープンソース化によって誰もがいろいろな技術に無料でアクセスし、手軽に使用したり改良したりできるようになりました。
AI音声認識「AmiVoice」の概要と強み
「AmiVoice」とはどのようなものなのでしょうか?
「AmiVoice」のAmiはAdvanced Media,Inc.の頭文字、Voiceは声という意味です。「AmiVoice」は我々の音声認識技術の総称です。
「声」の情報と「言語」の情報を組み合わせながら、「声」を「文字」に変換する技術です。
「AmiVoice」は、ディープランニング技術などにより音声データやテキストデータを学習した複数の“モデル”を用いて音声を認識しています。入力音声に対してそれら“モデル”を用いて複数の候補を生成し、それら複数の出力候補の中からもっとも確からしいと思われるものを正解候補として出力しています。
「AmiVoice」の強みはどのようなことでしょうか?
「AmiVoice」の強みは、音声認識精度が高いことです。精度を高めるためには、データを多く集めること、データをクレンジングすること、データを学習させることが必要です。
弊社は音声認識市場のパイオニアであり、豊富な利用実績があるので、長年のデータが蓄積されています。言葉のデータベースであるコーパスとこれまで研鑽してきた開発力の組み合わせで、より高い認識精度を実現しています。
また、表記揺れや入力ミスの修正など、データクレンジングできれいにしたデータを使い、精度を上げています。
一般的な音声認識の技術では汎用的なエンジンを使っていますが、「AmiVoice」は領域に特化したエンジンを使っているのが特長です。
コールセンター、議事録作成、医療現場などの用途に応じたエンジンを持っているため、さまざまな業種の専門用語に対応可能です。
音声認識が活用される仕事とは
音声入力を使うのは「恥ずかしい」「面倒くさい」など、少し心理的なハードルがあるような気がします。
我々は主にBtoBでビジネスを展開していますが、ビジネスシーンにおいて音声認識を使用するシチュエーションは、主にコミュニケーションの領域とデータ入力の2つがあると考えております。
コミュニケーションの領域は、例えばコールセンターや議事録の作成で使用されていますが、いずれも人と人のやり取りを録音、テキスト化しますので、利用者に負担はあまり生じません。ビジネスにおいてコミュニケーションは不可欠であり、その場面において価値を提供できれば我々の事業拡大のチャンスがあると言えます。
一方、データ入力についてはキーボードなど他の入力方法があるので、すべてが音声入力に置き換わる事はありませんが、音声を用いることで効率化できる利用シーンは数多く存在します。例えば、放射線科の医師は読影しながら音声入力を行いますが、キーボードを打つより、レントゲン写真を見ながらマイクを持って喋るほうが圧倒的に早いのです。
このように音声入力のほうが早くて便利と感じられる業務では、利用のハードルは下がります。
音声認識はどのような仕事で使用されるのでしょうか?
例えば、医療現場では電子カルテや調剤薬歴を音声で作成できると、手入力の場合と比べて入力時間が減少し、業務の効率化につながります。
製造・物流などの現場で製品検査や保守点検をするとき、音声入力なら筆記が不要になり、ハンズフリー、ペーパーレスで作業時間の短縮や筆記する際に生じていた転記ミスがなくなります。
接客や商談の現場では、顧客との会話を音声認識でデータ化して分析することが可能です。会話の中から成績優秀者の行動様式を知ったり、顧客ニーズやクレームを発見したり、コンプライアンスへの対応状況を確認するといった活用方法があります。
広がる音声認識技術の可能性
音声入力が多く使われているのはどのような業種でしょうか?
ビジネスが好調なのはコールセンターです。応対品質を向上させるために音声認識技術が使われています。
通話データがテキスト化されるので、オペレーターが自身の対応を振り返ることができますし、管理者がフィードバックすることも可能です。
また、すべての通話について応対品質を自動的に採点して評価できるので、管理者の主観に左右されず、オペレーターの強みや弱みを客観的に把握することも可能になります。
仕事の現場以外ではどのようなところで活用されていますか?
弊社のサービスではありませんが、弊社のエンジンを活用したものは、いろいろなところで使われています。
例えば、「あかりをつけて」や「テレビを消して」と声で操作できるリモコンなどにも弊社の音声認識の技術が使われています。
音声認識技術の未来
音声認識は将来どのようになっていくのでしょうか?
コールセンターでは、オペレーターの代わりにボイスボット(自動音声応答システム)が顧客対応をするようになっていきます。ボイスボットは、現在はある程度限定されたところで使われていますが、これからさらに広がっていくでしょう。
我々は、メタバース空間やサイネージで利用可能なAI音声対話アバターも作っています。今のところメタバースよりサイネージが主流ですが、いずれは仮想空間上にアバターを出現させてコミュニケーションを取る時代が来るでしょう。
さまざまなビジネスシーンで、人と機械のコミュニケーションがどんどん増えていくだろうと考えています。
御社の今後の展望などはありますか?
弊社にはHCI(Human Communication Integration)のビジョンとJUI(Joyful Useful Indispensable)という戦略があります。
HCIは、機械と人間の自然なコミュニケーションを実現して、豊かな未来を創造するということです。JUIは、AIは楽しくて、役に立ち、使い続けることでなくてはならないものにするという戦略です。
我々は、今までにない最先端技術を実用化し、普及させることで社会に貢献していきたいと考えています。
終わりに
KeyPoint
- 音声認識とは、「声」の情報と「言語」の情報を組み合わせながら、「声」を「文字」に変換する技術である。
- アドバンスト・メディアには豊富なデータの蓄積があり、これまで培った開発力との組み合わせによって「AmiVoice」の強みである高い音声認識精度を実現している。
- 「AmiVoice」は領域に特化した音声認識エンジンを使っているので、幅広い業種の専門用語に対応できる。
いかがでしたでしょうか。
第3次AIブームで登場したディープラーニングは、音声認識に大きな進歩をもたらしました。
第4次AIブームの生成AIも、音声認識の進歩をさらに加速させることでしょう。
ほんの少し前まで、AIで文字起こしすると修正が多すぎると感じることがありましたが、短期間で急速に進化しているようです。
コールセンターに電話しても、クレーマーやよほど込み入った質問でなければ、AIですべての受け答えを完結するばかりか、お店での買い物もアバターに接客してもらう日が、もうそこまで来ているのかもしれません。
関連記事
TEXT:PreBell編集部
PHOTO:iStock
この記事を気にいったらいいね!しよう
PreBellの最新の話題をお届けします。