※2023年5月21日現在、この記事を書いた時と現在ではGoogle Chromeの音声認識のテキストへの変換結果の特徴が変わっています。Microsoft Edge とGoogle Chrome の違いを比較したい場合は下記のリンクからWeb Speech APIのデモンストレーションをすることができますのでそこで確認してください。
今回の記事では、Microsoft EdgeとGoogle ChromeにおけるWeb Speech APIの認識精度、レスポンス、音声データの取り扱い等のセキュリティ面について比較しています。
Web Speech APIのデモンストレーション
Web Speech APIの音声認識を試す方はここをクリックしてください。
音声認識の精度について
音声認識の精度を比較するために、「話してパソコン入力 via the Web(愛称:Sokki Voice)」の音声認識画面を同時に開き、下記の文をMicrosoft Edge とGoogle Chrome に同時に音声認識させてみました。
音声認識させた内容:
この記事ではMicrosoft Edge におけるWeb Speech APIとGoogle Chrome におけるWeb Speech APを比較しています。
結果は下の通りです。左がGoogle Chromeで右が Microsoft Edge になります。

Google Chrome のWeb Speech APIの認識結果:
この記事ではMicrosoft Edge におけるWeb Speech APIとGoogle Chrome におけるWeb Speech APIを比較しています
Microsoft EdgeのWeb Speech APIの認識結果:
この記事では、マイクロソフトエッジにおけるweb speech api to googleクロームに開けるweb speech apiを比較しています。
Google Chrome とMicrosoft Edge とでは音声認識結果は結構違っています。
筆者が期待した結果はGoogle Chrome の認識結果になります。Google Chrome の方はアルファベットで認識して欲しいところはちゃんとアルファベットで認識されており、またアルファベットの大文字小文字についても筆者の期待した通りに認識してくれています。
今回の例ではあまり一般的とは言えない単語があったため、違いが顕著に出たのかもしれません。
意図したとおりに認識されるかというのはかなり重要で、キーボードでの修正があまり多くなってしまうと初めからキーボードで入力した方が良いということになってしまいます。
次はもっと一般的な文で試してみました。左がGoogle Chrome で右がMicrosoft Edge になります。

Google Chrome のWeb Speech APIの認識結果:
今日は5月2日日曜日です朝子供を連れて家の周りを散歩しましたが風が強くまた雨がすぐ降ってきそうだったのですぐ家に戻りました
Microsoft EdgeのWeb Speech APIの認識結果:
今日は5月2日日曜日です。朝子供を連れて家の周りを散歩しましたが、風が強く、また雨がすぐ降って来そうだったので、すぐ家に戻りました。
筆者が今朝、子供を連れて散歩に行ってきた時の様子を音声認識させてみました。日記に書くようなごくごく一般的な文書の場合はどちらのブラウザでも筆者が意図したとおり正確に音声認識してくれました。
ただ句読点の入力に関しては大きな違いがあります。Google Chrome の場合は句読点は自動では認識してくれません。Google Chrome で句読点を認識させる場合は「、」は「とうてん」で「。」は「くてん」と発音する必要がありますが、
Microsoft Edgeの場合は句読点を自動で認識してくれました。
これはMicrosoft Edge の大きなアドバンテージです。ただし現状はまだ課題もあります。
それは語尾に必ずに句点(。)が入ってしまうということです。
例えば数字の「250」を音声認識させた場合に「250。」という認識結果になってしまいます。
読点(、)の自動認識に関しては個人個人の好みの問題もあるので何とも言えないところですが、筆者が期待している数よりも読点(、)の数が少し多くなっています。
Microsoft Edge の句読点の自動認識については今後改善していくことを期待したいと思います。
音声認識の精度全般に関してはサポートされてから年月が経ってるGoogle Chromeの方が優れているというのが正直な印象です。
ただMicrosoft Edge に関しても音声認識させる内容によっては十分に実用的だと思いますし、まだサポートされたばかりということで今後さらに認識精度が向上していくことが期待できます。
またなんといっても句読点が自動で認識されるというのは大きなアドバンテージだと思います。句読点の自動認識に関しても今後期待したいと思います。
音声認識のレスポンスについて
音声認識の反応についてはどうでしょうか。
Google Chrome の方は、ほぼ筆者の意図した通りにスムーズに話した言葉のひとことめから音声認識がはじまり、音声をテキストに変換してくれる印象です。
Microsoft Edge の方も同様にスムーズに音声認識してくれますが、マイクに話しかけてもすぐには音声認識が始まらずに、少し遅れて音声認識が始まることがGoogle Chrome に比べると少し多いようです。
今回の記事を書くためにMicrosoft Edge とGoogle Chrome で同じタイミングで同時に音声認識させた時にGoogle Chrome の方はひとこと目から音声認識が始まったけど、Microsoft Edge の方では少し遅れて音声認識が始まり、最初の方の言葉が認識されないということがありました。
Microsoft Edge のこの点も今後改善していくことを期待したいと思います。
音声認識におけるセキュリティ・プライバシーについて
Google における音声認識におけるプライバシーおよび音声データの取扱いについては、
- ポリシーと規約 – Google
- Google Chrome プライバシーホワイトペーパーの「テキストへのスピーチ(Speech to text)」
Google Chrome Privacy Whitepaper
で確認する事ができます。
Microsoftにおける音声認識におけるプライバシーおよび音声データの取扱いについては、
- Microsoft のプライバシーに関する声明 – Microsoft のプライバシーの「プライバシーに関する他の重要な情報」の「音声認識技術」
Microsoft のプライバシーに関する声明 – Microsoft のプライバシー - Microsoft は音声認識テクノロジを改善しながら、プライバシーをどのように保護しますか?
- Microsoft Edge プライバシー ホワイトペーパーの「音声認識」
Microsoft Edge プライバシー ホワイトペーパー – Microsoft Edge Development | Microsoft Docs
で確認する事ができます。
具体的な内容を記載する事は避けますが、
上記のプライバシーや音声データの取り扱いに関するドキュメントについては、マイクロソフトの方がよりユーザーのパライバシーに配慮しているというのが筆者の印象です。
一方でGoogleの方は有料の音声認識サービス「Cloud Speech-to-Text」においては、より詳細なプライバシーおよび音声データの取り扱いに関するドキュメントが用意されています。
Googleの方は有料の音声認識サービスと無料で利用できる音声認識とでは音声データの取り扱いについても差別化されているようです。
Microsoft EdgeのWeb Speech APIは十分にビジネスでも利用できるレベルでユーザーのプライバシーに配慮されていると思います。
一方でGoogle ChromeのWeb Speech APIをビジネスで利用する事には慎重になった方が良いと思います。Googleの音声認識をビジネスで利用する場合は無料のWeb Speech APIよりも有料サービスの「Cloud Speech-to-Text」を利用する方が良いと思います。
クラウド型の音声認識を利用する方は、一度ご自身でプライバシーや音声データの取り扱いに関するドキュメントを確認してみて下さい。
比較のまとめ
音声認識の精度については、サポートされてから年月が経っているGoogle Chromeの方が良いというのが筆者の印象です。
音声認識のレスポンスについては、どちらのブラウザもマイクに話すとスムーズに音声認識がはじまりますが、比較すると若干ですがGoogle Chrome の方が良いように思います。
一方で音声認識におけるプライバシーや音声データの取り扱いについては、Microsoft EdgeのWeb Speech APIの方がよりユーザーのプライバシーに配慮しているかたちになっていると思います。
今のところ個人の利用において音声認識をする場合は、よりスムーズに精度良く音声入力することができるGoogle Chrome のWeb Speech APIを使う方が良さそうです。
一方でビジネスで利用する場合は、より音声データの取り扱いについてユーザーのプライバシーに配慮しているMicrosoft Edge のWeb Speech APIを使うほうが良いように思います。
また、筆者が作成したWeb Speech API を利用した音声入力ソフト「話してパソコン入力 via the Web(愛称:Sokki Voice)」をダウンロードするところから実際に音声入力するところまでを紹介している記事を読む方はここをクリックして下さい。