Microsoft Edge とGoogle Chrome のWeb Speech APIの比較

　この記事では、Microsoft EdgeとGoogle ChromeにおけるWeb Speech APIの認識精度、レスポンス、音声データの取り扱い等のセキュリティ面について比較しています。

音声認識の精度について
音声認識のレスポンスについて
Web Speech APIのデモンストレーション
音声認識におけるセキュリティ・プライバシーについて
Web Speech APIを利用したWindows用のアプリ
音声認識の精度について(2021年5月に比較した結果)

音声認識の精度について

音声認識の精度を比較するために、下記のWeb Speech APIのデモンストレーションのページをMicrosoft EdgeとGoogle Chromeで同時に開いて、同時に音声認識させて比較しました。

Web Speech APIの音声認識を試す方はここをクリックしてください。

音声認識させた内容：
この記事ではMicrosoft Edge におけるWeb Speech APIとGoogle Chrome におけるWeb Speech APを比較しています。

結果は下の通りです。左がGoogle Chromeで右が Microsoft Edge になります。

Google Chrome のWeb Speech APIの認識結果：
この記事では Microsoft Edge におけるウェブスピーチ API と Google Chrome におけるウェブスピーチ API を比較しています

Microsoft EdgeのWeb Speech APIの認識結果：
この記事ではMicrosoft EdgeにおけるウェブスピーチAPIとGoogleクロームにおけるウェブスピーチAPIを比較しています。

Google Chrome とMicrosoft Edge とでは音声認識結果が上記のように若干ちがっていますが、どちらも十分に実用的な精度で音声認識してくれます。

Microsoft Edgeの方は自動で句読点が入力されます。ただ期待した場所に句読点が入力されるかというとそういうわけでは無いです。

音声認識のレスポンスについて

　音声認識のレスポンスについてはどうでしょうか。
Google Chrome の方は、ほぼ筆者の意図した通りにスムーズに話した言葉のひとことめから音声認識がはじまり、音声をテキストに変換してくれる印象です。

Microsoft Edge の方も同様にスムーズに音声認識してくれますが、マイクに話しかけてもすぐには音声認識が始まらずに、少し遅れて音声認識が始まることがGoogle Chrome に比べるとわずかですが多い気がしました。ただ、最初にこの記事を書いた2021年5月に比べるとかなり改善されたように感じます。　

今回のテストは下記のWeb Speech APIのデモンストレーションのページをMicrosoft EdgeとGoogle Chromeで同時に開いて、同時に音声認識させてテストしました。もっと詳しく違いを試したい方は下記リンクのページにて実際に試してみて下さい。

Web Speech APIのデモンストレーション

Web Speech APIの音声認識を試す方はここをクリックしてください。

音声認識におけるセキュリティ・プライバシーについて

Google における音声認識におけるプライバシーおよび音声データの取扱いについては、

ポリシーと規約 – Google

で確認する事ができます。

Microsoftにおける音声認識におけるプライバシーおよび音声データの取扱いについては、

Microsoft のプライバシーに関する声明 – Microsoft のプライバシーの「プライバシーに関する他の重要な情報」の「音声認識技術」
Microsoft のプライバシーに関する声明 – Microsoft のプライバシー
Microsoft は音声認識テクノロジを改善しながら、プライバシーをどのように保護しますか?
Microsoft Edge プライバシーホワイトペーパーの「音声認識」
Microsoft Edge プライバシーホワイトペーパー – Microsoft Edge Development | Microsoft Docs

で確認する事ができます。

具体的な内容を記載する事は避けますが、
上記のプライバシーや音声データの取り扱いに関するドキュメントについては、マイクロソフトの方がよりユーザーのパライバシーに配慮しているというのが筆者の印象です。

一方でGoogleの方は有料の音声認識サービス「Cloud Speech-to-Text」においては、より詳細なプライバシーおよび音声データの取り扱いに関するドキュメントが用意されています。
Googleの方は有料の音声認識サービスと無料で利用できる音声認識とでは音声データの取り扱いについても差別化されているようです。

　Microsoft EdgeのWeb Speech APIは十分にビジネスでも利用できるレベルでユーザーのプライバシーに配慮されていると思います。
一方でGoogle ChromeのWeb Speech APIをビジネスで利用する事には慎重になった方が良いと思います。Googleの音声認識をビジネスで利用する場合は無料のWeb Speech APIよりも有料サービスの「Cloud Speech-to-Text」を利用する方が良いと思います。

クラウド型の音声認識を利用する方は、一度ご自身でプライバシーや音声データの取り扱いに関するドキュメントを確認してみて下さい。

Web Speech APIを利用したWindows用のアプリ

また、筆者が作成したWeb Speech API を利用したWindows用のアプリ Sokki Voice（話してパソコン入力 via the Web）をダウンロードするところから実際に音声入力するところまでを紹介している記事を読む方はここをクリックして下さい。

※Sokki VoiceはのWindowsの任意のアプリに音声入力できるソフトです。

音声認識の精度について(2021年5月に比較した結果)

※2024年5月26日現在、下記の記事を書いた時と現在では音声認識の特徴が変わっています。現時点での違いを比較したい場合は下記のリンクからWeb Speech APIのデモンストレーションをすることができますのでそこで確認してください。

Web Speech APIの音声認識を試す方はここをクリックしてください。

※以下は2021年5月に比較した結果です。

　音声認識の精度を比較するために、「話してパソコン入力 via the Web（愛称：Sokki Voice）」の音声認識画面を同時に開き、下記の文をMicrosoft Edge とGoogle Chrome に同時に音声認識させてみました。

音声認識させた内容：
この記事ではMicrosoft Edge におけるWeb Speech APIとGoogle Chrome におけるWeb Speech APを比較しています。

結果は下の通りです。左がGoogle Chromeで右が Microsoft Edge になります。

Google Chrome におけるWeb Speech APIとマイクロソフトエッジにおけるWeb Speech APIの比較_1 — 「話してパソコン入力 via the Web」の音声認識画面（左がGoogle Chrome、右がMicrosoft Edge）

Google Chrome のWeb Speech APIの認識結果：
この記事ではMicrosoft Edge におけるWeb Speech APIとGoogle Chrome におけるWeb Speech APIを比較しています

Microsoft EdgeのWeb Speech APIの認識結果：
この記事では、マイクロソフトエッジにおけるweb speech api to googleクロームに開けるweb speech apiを比較しています。

Google Chrome とMicrosoft Edge とでは音声認識結果は結構違っています。
　筆者が期待した結果はGoogle Chrome の認識結果になります。Google Chrome の方はアルファベットで認識して欲しいところはちゃんとアルファベットで認識されており、またアルファベットの大文字小文字についても筆者の期待した通りに認識してくれています。

今回の例ではあまり一般的とは言えない単語があったため、違いが顕著に出たのかもしれません。
　意図したとおりに認識されるかというのはかなり重要で、キーボードでの修正があまり多くなってしまうと初めからキーボードで入力した方が良いということになってしまいます。

次はもっと一般的な文で試してみました。左がGoogle Chrome で右がMicrosoft Edge になります。

Google Chrome におけるWeb Speech APIとマイクロソフトエッジにおけるWeb Speech APIの比較_2 — 「話してパソコン入力 via the Web」の音声認識画面（左がGoogle Chrome、右がMicrosoft Edge）

Google Chrome のWeb Speech APIの認識結果：
今日は5月2日日曜日です朝子供を連れて家の周りを散歩しましたが風が強くまた雨がすぐ降ってきそうだったのですぐ家に戻りました

Microsoft EdgeのWeb Speech APIの認識結果：
今日は5月2日日曜日です。朝子供を連れて家の周りを散歩しましたが、風が強く、また雨がすぐ降って来そうだったので、すぐ家に戻りました。

筆者が今朝、子供を連れて散歩に行ってきた時の様子を音声認識させてみました。日記に書くようなごくごく一般的な文書の場合はどちらのブラウザでも筆者が意図したとおり正確に音声認識してくれました。