OCRより難しい音声認識もAIで解決

最近テレビを見ていて、「ついにここまで時代が進んだのか」と驚くのが、人の声がリアルタイムで文字になって画面下に表示されている技術です。日本語は外国語と比べても漢字とかな文字があり、習得が難しいとされる言語です。その言語を、瞬時に画面下に表示するという技術には驚嘆するばかりです。

1、大きく変わる会議の議事録と電話応対

これはAIの技術を使って音声を分析し、文字にする技術です。顧客の電話を受けサービス改善に繋げるカスタマーサクセス領域では、次々と導入が広がっています。また営業現場での交渉を記録する議事録もこの技術により、会議の進行とリアルタイムで作ることができます。2020年から新型コロナの流行によりリモート会議が当たり前のものとなり、AIによる議事録サービスを後押しする形になりました。

(1)音声認識はOCRより難しい

かねてよりAIによる音声認識の研究や技術開発は進んでいたものの、ハードルの高い領域と考えられていました。日本語だけをとっても方言によるアクセントの違い、抑揚、活舌の良し悪しなどの違いがあります。同じ人間でも体調の良いとき(メンタル含む)の発生と悪いときの発声には複数の相違点があります。AIによる音声認識で、それを解決したのは、膨大なビックデータを活用したタグ付けでした。

音声の特徴を何千・何万通りのなかからタグ付けし、前後の文脈から漢字を判断します。この組み合わせにより、リアルタイムで議事録を作り、公開することが可能になりました。

(2)近い将来のビジネスシーンからは「言った言わない」が消える?

企業の問い合わせ窓口に電話をかけると「応対品質向上のため、この通話は録音します」というアナウンスが流れることがあります。これはクレーマーに抑止力を働かせる効果もありますが、双方に言った・言わないを判断するための判断材料になる、という効果もあります。ここにAI×音声認識のサービスが浸透すると、判断材料が自動的に作られるようになります。意識したオペレーターにより更に丁寧な応対が期待できる一方、電話の掛け手としてもより節度やマナーを守った交渉が求められることになります。

2、ChatBotと連携して音声認識はより便利なサービスに

音声認識で取得(タグ付)したデータをChatBotと連携させると、電話応対で対応の多かったやり取りをそのままChatBotに落とし、わざわざ電話をかけなくても回答を貰えるというサービスを展開することができます。カスタマーサクセスの電話は時間により繋がりづらいことも多く、問い合わせる側のストレスも軽減することが可能です。AI×音声認識の発展は、街中でスマートフォンを耳にあてながら苛々している人の姿さえも、無くすことができるのかもしれません。

関連記事

ページ上部へ戻る