はじめに
- https://deepgram.com/learn/best-speech-to-text-apis
- deepgram社の広告記事だが、STTツール市場についてよくまとまっているので、要約する
STT APIを選ぶ際に考慮すべき重要なポイント
以下の要素を総合的に評価することで、プロジェクトに最適なSTT APIを選択できる
- 精度:
- 文字起こしの正確さが重要。バックグラウンドノイズや方言、アクセントにも対応できること。
- 速度:
- 低遅延で迅速な処理が求められるアプリケーションが多い。
- コスト:
- コスト効率が重要。適切な投資収益率(ROI)と価格対性能比が必要。
- 入力モード:
- 事前録音音声のバッチ処理やリアルタイムストリーミングのサポート。
- 機能と能力:
- 高度なフォーマットや音声理解機能が含まれること。
- スケーラビリティと信頼性:
- さまざまなデータ量に対応でき、信頼性が高いこと。
- カスタマイズと柔軟性:
- 特定の語彙や展開オプションに対応できること。
- 採用と使用の容易さ:
- APIの統合が簡単で、開発者向けのサポートが充実していること。
- サポートと専門知識:
- 専門家のサポートがあり、サービスの継続的な改善が期待できるベンダー。
STT APIの選定において考慮すべき重要な機能
以下の機能を考慮することで、プロジェクトに最適な STT APIを選択することができる
- 多言語サポート:
- 複数の言語や方言に対応できること。
- フォーマットオプション:
- 句読点、自動大文字化、段落分け、話者ラベリング、単語レベルのタイムスタンプ、卑語フィルタリングなど、読みやすさとデータの有用性を向上させる機能。
- 自動句読点と大文字化:
- トランスクリプトを公開する場合、これらの機能が含まれていると時間を節約できます。
- 卑語フィルタリングまたは編集:
- コミュニティのモデレーションに使用する場合、卑語を自動的に検出し検閲またはレビュー用にフラグを立てる機能が重要です。
- 音声理解:
- 誰が何を言ったかを理解するために、自然言語処理(NLP)や音声言語理解(SLU)タスクを使用します。これにより、会話の要約や顧客体験の向上を図ります。
- トピック検出:
- オーディオの主要なトピックやテーマを自動的に識別し、大量の音声データの分類や整理、理解を改善します。
- 意図検出:
- 発話の目的や意図を判断し、システム内のエージェントやタスクが次に取るべき最適なアクションを決定します。
- 感情分析:
- 会話の中での相互作用、態度、感情を理解し、全体および各セクションをポジティブ、ニュートラル、ネガティブとして定量的に評価します。
- 要約:
- オーディオの内容を簡潔にまとめ、最も関連性の高い重要な情報と全体的な意味を保持します。
- キーワード(キーワードブースティング):
- 専門用語や固有名詞、略語、頭字語を含めることで、モデルの予測精度を向上させます。
- カスタムモデル:
- 専門用語や固有名詞に対応したカスタムモデルを作成し、代表的なデータでトレーニングすることで、最高のパフォーマンスを発揮します。
- 多様な音声フォーマット対応:
- 異なる音声フォーマットを処理できること。これにより、複数のソースからのオーディオを処理する際に時間とコストを節約できます。
STT APIのパフォーマンスを評価
- 精度テスト:
- 使用するオーディオに似たファイルを用いて精度テストを行うことが推奨されます。定量的なベンチマークと定性的な人間の評価を組み合わせた包括的なアプローチが効果的です。
- Word Error Rate(WER):
- 一般的な評価指標としてWERが用いられます。WERは次のように計算されます:
WER = (挿入された単語数 + 削除された単語数 + 置換された単語数) / 総単語数
- 例えば、精度が80%の場合、WERは20%になります。
- 一般的な評価指標としてWERが用いられます。WERは次のように計算されます:
- ベンダーの精度主張に対する慎重な姿勢:
- ベンダーが主張する精度やWERの数値は、実際の使用状況に基づいたデータで検証することが重要です。特に、容易な音声データに基づく報告には注意が必要です。
- 現実世界データの使用:
- テストには、実際の使用状況を反映した多様なデータセットを使用することが推奨されます。これには、異なる音声長、アクセント、環境、およびテーマが含まれます。
- 図表の解釈:
- モデルのWERを比較する際には、図表を利用してデータの分布や偏りを視覚的に示すことが有用です。
- 難易度の高いオーディオデータへの感度:
- WERは、測定対象のオーディオデータの難易度に対して高い感度を持つため、現実世界の複雑な音声データを使用して評価することが重要です。
Top 10 STT API 2024 (by Deepgram)
1. Deepgram Speech-to-Text API
- 特徴: 高精度、迅速な処理、低コスト、多言語サポート、開発者フレンドリー
- 利点: 最速の推論時間、トランスクリプションコストが安い、リアルタイムサポート
- 欠点: 対応言語が限られている
- 価格: $0.25/音声時間
2. OpenAI Whisper API
- 特徴: オープンソース、広範な言語サポート、研究者向け
- 利点: 低コスト、言語および音声活動検出
- 欠点: リアルタイムトランスクリプションがサポートされていない、モデルのカスタマイズ不可
- 価格: 無料(但し、運用には高コストが伴う)
3. Microsoft Azure Speech-to-Text
- 特徴: Azureエコシステムとの統合、セキュリティとスケーラビリティ
- 利点: 多言語サポート、リアルタイムストリーミングサポート
- 欠点: 高コスト、遅い速度、プライバシーの懸念
- 価格: $1.10/音声時間
4. Google Speech-to-Text
- 特徴: Google Cloud Platformとの統合、セキュリティとスケーラビリティ
- 利点: 多言語サポート、リアルタイムストリーミングサポート
- 欠点: 全体的な精度が低い、遅い速度、高コスト
- 価格: $1.44/音声時間(標準モデル)、$2.16/音声時間(強化モデル)
5. AssemblyAI
- 特徴: 現代的な深層学習モデル、総合的な機能セット
- 利点: 一部の使用ケースでの高精度、迅速なトランスクリプション
- 欠点: 全体的な精度は中程度、カスタマイズが限られている
- 価格: $0.65/音声時間
6. Rev AI
- 特徴: 自動化された音声トランスクリプションサービス、言語検出、感情分析
- 利点: 一部の使用ケースでの高精度、迅速なトランスクリプション
- 欠点: 高コスト、英語以外の言語での精度が低い
- 価格: $1.20/音声時間
7. Speechmatics
- 特徴: 英国市場向け、高価格
- 利点: 一部の非英語言語での高精度、英国アクセントでの良好なパフォーマンス
- 欠点: 高コスト、遅い速度、リアルタイムストリーミングサポートが不十分
- 価格: $1.04/音声時間
8. Amazon Transcribe
- 特徴: AWSプラットフォームの一部、多言語サポート
- 利点: 事前録音音声での高精度、AWSエコシステムとの統合
- 欠点: 高コスト、リアルタイム音声での精度が低い
- 価格: $1.44/音声時間(一般)、$4.59/音声時間(医療)
9. IBM Watson
- 特徴: 初期のASRパイオニアだが、現在はレガシープレイヤー
- 利点: ブランド認知度
- 欠点: 高コスト、低精度、遅い速度
- 価格: $1.20/音声時間
10. Kaldi
- 特徴: オープンソースのツール、ASRソリューションの構築が必要
- 利点: 低取得コスト
- 欠点: 実世界の精度が非常に低い、自身でのトレーニングが必要
- 価格: 無料(但し、運用には高コストが伴う)