Web Speech APIとは
Web Speech APIはSpeech API Community Groupによって作成されたJavaScript APIで、
・音声認識:SpeechRecognition
・合成音声:SpeechSynthesis
の二つの要素から成っています。Web Speech APIを利用することで、インターネットを経由して音声認識と合成音声でのテキストの読み上げ等を行うことができるようになります。
主な用途としては、
・音声でテキスト入力
・音声でWEB検索
・音声でユーザーインターフェース操作
・音声コマンド
・合成音声でのテキスト読み上げ
・対話システム
などが考えられます。
音声認識の精度
Google ChromeにおけるWeb Speech APIの音声認識の精度は、Googleドキュメントの音声認識の精度と同等の精度になります。誤認識も含めて非常に近い認識結果となります。
使用するマイクに関しては、ヘッドセットなど口元付近で使用するマイクの方が認識精度は高くなります。PCによっては内蔵型マイクでも十分に音声認識精度が得られるものもあります。
上の文書を読み上げた場合の音声認識結果:
Google Chrome におけるWeb Speech APIの音声認識の精度はGoogle ドキュメントの音声認識の精度と同等の精度になります誤認識も含めて非常に近い認識結果となります使用するマイクに関してはヘッドセットなど口元付近で使用するマイクの方が認識精度は高くなりますPCによっては内蔵型マイクでも十分に音声認識精度が得られるものもあります
はっきり発音するように話すとほぼ正確に音声を認識してくれます。今回の音声認識の例ではヘッドセットのマイクを使用しました。家電量販店で販売している1000円程度のヘッドセットです(正確な価格は忘れました)。
音声認識におけるセキュリティについて
Web Speech APIはインターネット経由で音声認識やテキストの合成音声への変換を行います。そのためエンドユーザーはWeb Speech APIが使用されているアプリを利用する前に、Web Speech APIにおけるセキュリティやデータの取扱いについて事前に確認しておく必要があります。
Google Chromeにおいては「Google Chromeプライバシーホワイトペーパー」の「テキストへのスピーチ(Speech to text)」の項目で
- ChromeがWeb Speech APIをサポートしていること
- 音声認識がGoogle のサーバーで行われること
- オーディオ録音、ウェブサイトのドメイン等がGoogle に送信されること
等が公表されており、Google における音声データの取り扱いはGoogle のプライバシーポリシーに準じる形になります。
機密情報などの他人に知られてはいけない内容は音声認識させないようにしてください。
Web Speech API(音声認識)を利用できるブラウザ
現在(2021年5月1日時点)、Web Speech APIの音声認識インターフェース「SpeechRecognition」を使用できるブラウザは、MDNのWeb Speech APIに関するドキュメントによると、
・Google Chrome
・Microsoft Edge
・Samsung Internet
となっておます。
「Microsoft Edge」に関しては2021年4月16日時点ではインターフェースは存在していましたが実際には使用できませでした。ですが2021年5月1日に確認したところ、
「Microsoft Edge」でも「Speech Recognition」が機能し音声認識できるようになっておりました。
※Samsung Internetに関してはスマホ等のモバイル端末用のブラウザという事で試していません。
Web Speech APIは使用するブラウザがGoogle Chromeの場合と Microsoft Edgeの場合では音声認識の精度およびレスポンスは異なります。
また音声認識をした音声データの取り扱いについてもGoogle Chromeと Microsoft Edgeの場合では異なってきます。
Microsoft Edge のWeb Speech APIとGoogle Chrome のWeb Speech APIを比較している記事を読む場合はここをクリックしてください。
音声認識の性能向上
Web Speech APIにおける音声認識は少しずつ性能が向上しているようです。
クラウド型の音声認識は大勢の方が利用するため、色んな人の話し声やその内容をAIが学習して時間の経過とともに認識精度・性能が向上しているのだと思います。
私が「話してパソコン入力 via the Web」を作成し始めた頃は「。」は「まる」という発音では入力できなかったように思いますが、いつのまにか「まる」という発音で入力できるようになっていました。また他にも補正機能を使用しなくても
- 「 → かぎかっこ
- 」 → かぎかっことじ
- ( → まるかっこ
- ) → まるかっことじ
で入力できるようになってました。
少し前まではすくなくとも )と( は補正機能を使用しなければ入力できなかったように思います。
まだ「、」に関しては「てん」という発音では音声入力できないようですが、いずれは「てん」という発音で音声入力できるようになるのかもしれません。
※2021年7月18日では「。」や括弧は上記の方法では音声入力できません。Web Speech APIの音声認識結果は変わることがあるようです。
Web Speech APIを利用したソフト「話してパソコン入力 via the Web」について
「話してパソコン入力 via the Web」は無料でお試し利用ができます。ソフトのダウンロードから音声入力するまでの手順を紹介している記事を読む方はこちらをクリックしてください。
コメント