2024.08.5

Speech-To-Text(STT)市場の理解

Table of Contents

はじめに

https://deepgram.com/learn/best-speech-to-text-apis
- deepgram社の広告記事だが、STTツール市場についてよくまとまっているので、要約する

STT APIを選ぶ際に考慮すべき重要なポイント

以下の要素を総合的に評価することで、プロジェクトに最適なSTT APIを選択できる

精度:
- 文字起こしの正確さが重要。バックグラウンドノイズや方言、アクセントにも対応できること。
速度:
- 低遅延で迅速な処理が求められるアプリケーションが多い。
コスト:
- コスト効率が重要。適切な投資収益率（ROI）と価格対性能比が必要。
入力モード:
- 事前録音音声のバッチ処理やリアルタイムストリーミングのサポート。
機能と能力:
- 高度なフォーマットや音声理解機能が含まれること。
スケーラビリティと信頼性:
- さまざまなデータ量に対応でき、信頼性が高いこと。
カスタマイズと柔軟性:
- 特定の語彙や展開オプションに対応できること。
採用と使用の容易さ:
- APIの統合が簡単で、開発者向けのサポートが充実していること。
サポートと専門知識:
- 専門家のサポートがあり、サービスの継続的な改善が期待できるベンダー。

STT APIの選定において考慮すべき重要な機能

以下の機能を考慮することで、プロジェクトに最適な STT APIを選択することができる

多言語サポート:
- 複数の言語や方言に対応できること。
フォーマットオプション:
- 句読点、自動大文字化、段落分け、話者ラベリング、単語レベルのタイムスタンプ、卑語フィルタリングなど、読みやすさとデータの有用性を向上させる機能。
自動句読点と大文字化:
- トランスクリプトを公開する場合、これらの機能が含まれていると時間を節約できます。
卑語フィルタリングまたは編集:
- コミュニティのモデレーションに使用する場合、卑語を自動的に検出し検閲またはレビュー用にフラグを立てる機能が重要です。
音声理解:
- 誰が何を言ったかを理解するために、自然言語処理（NLP）や音声言語理解（SLU）タスクを使用します。これにより、会話の要約や顧客体験の向上を図ります。
トピック検出:
- オーディオの主要なトピックやテーマを自動的に識別し、大量の音声データの分類や整理、理解を改善します。
意図検出:
- 発話の目的や意図を判断し、システム内のエージェントやタスクが次に取るべき最適なアクションを決定します。
感情分析:
- 会話の中での相互作用、態度、感情を理解し、全体および各セクションをポジティブ、ニュートラル、ネガティブとして定量的に評価します。
要約:
- オーディオの内容を簡潔にまとめ、最も関連性の高い重要な情報と全体的な意味を保持します。
キーワード（キーワードブースティング）:
- 専門用語や固有名詞、略語、頭字語を含めることで、モデルの予測精度を向上させます。
カスタムモデル:
- 専門用語や固有名詞に対応したカスタムモデルを作成し、代表的なデータでトレーニングすることで、最高のパフォーマンスを発揮します。
多様な音声フォーマット対応:
- 異なる音声フォーマットを処理できること。これにより、複数のソースからのオーディオを処理する際に時間とコストを節約できます。

STT APIのパフォーマンスを評価

精度テスト:
- 使用するオーディオに似たファイルを用いて精度テストを行うことが推奨されます。定量的なベンチマークと定性的な人間の評価を組み合わせた包括的なアプローチが効果的です。
Word Error Rate（WER）:
- 一般的な評価指標としてWERが用いられます。WERは次のように計算されます：
  WER = (挿入された単語数 + 削除された単語数 + 置換された単語数) / 総単語数
- 例えば、精度が80%の場合、WERは20%になります。
ベンダーの精度主張に対する慎重な姿勢:
- ベンダーが主張する精度やWERの数値は、実際の使用状況に基づいたデータで検証することが重要です。特に、容易な音声データに基づく報告には注意が必要です。
現実世界データの使用:
- テストには、実際の使用状況を反映した多様なデータセットを使用することが推奨されます。これには、異なる音声長、アクセント、環境、およびテーマが含まれます。
図表の解釈:
- モデルのWERを比較する際には、図表を利用してデータの分布や偏りを視覚的に示すことが有用です。
難易度の高いオーディオデータへの感度:
- WERは、測定対象のオーディオデータの難易度に対して高い感度を持つため、現実世界の複雑な音声データを使用して評価することが重要です。

Top 10 STT API 2024 (by Deepgram)

1. Deepgram Speech-to-Text API

特徴: 高精度、迅速な処理、低コスト、多言語サポート、開発者フレンドリー
利点: 最速の推論時間、トランスクリプションコストが安い、リアルタイムサポート
欠点: 対応言語が限られている
価格: $0.25/音声時間

2. OpenAI Whisper API

特徴: オープンソース、広範な言語サポート、研究者向け
利点: 低コスト、言語および音声活動検出
欠点: リアルタイムトランスクリプションがサポートされていない、モデルのカスタマイズ不可
価格: 無料（但し、運用には高コストが伴う）

3. Microsoft Azure Speech-to-Text

特徴: Azureエコシステムとの統合、セキュリティとスケーラビリティ
利点: 多言語サポート、リアルタイムストリーミングサポート
欠点: 高コスト、遅い速度、プライバシーの懸念
価格: $1.10/音声時間

4. Google Speech-to-Text

特徴: Google Cloud Platformとの統合、セキュリティとスケーラビリティ
利点: 多言語サポート、リアルタイムストリーミングサポート
欠点: 全体的な精度が低い、遅い速度、高コスト
価格: $1.44/音声時間（標準モデル）、$2.16/音声時間（強化モデル）

5. AssemblyAI

特徴: 現代的な深層学習モデル、総合的な機能セット
利点: 一部の使用ケースでの高精度、迅速なトランスクリプション
欠点: 全体的な精度は中程度、カスタマイズが限られている
価格: $0.65/音声時間

6. Rev AI

特徴: 自動化された音声トランスクリプションサービス、言語検出、感情分析
利点: 一部の使用ケースでの高精度、迅速なトランスクリプション
欠点: 高コスト、英語以外の言語での精度が低い
価格: $1.20/音声時間

7. Speechmatics

特徴: 英国市場向け、高価格
利点: 一部の非英語言語での高精度、英国アクセントでの良好なパフォーマンス
欠点: 高コスト、遅い速度、リアルタイムストリーミングサポートが不十分
価格: $1.04/音声時間

8. Amazon Transcribe

特徴: AWSプラットフォームの一部、多言語サポート
利点: 事前録音音声での高精度、AWSエコシステムとの統合
欠点: 高コスト、リアルタイム音声での精度が低い
価格: $1.44/音声時間（一般）、$4.59/音声時間（医療）

9. IBM Watson

特徴: 初期のASRパイオニアだが、現在はレガシープレイヤー
利点: ブランド認知度
欠点: 高コスト、低精度、遅い速度
価格: $1.20/音声時間

10. Kaldi

特徴: オープンソースのツール、ASRソリューションの構築が必要
利点: 低取得コスト
欠点: 実世界の精度が非常に低い、自身でのトレーニングが必要
価格: 無料（但し、運用には高コストが伴う）

投稿者: s3lab
AI

AWS LambdaからShopify APIの実行前の記事

Remixの特徴次の記事

Speech-To-Text(STT)市場の理解

はじめに

STT APIを選ぶ際に考慮すべき重要なポイント

STT APIの選定において考慮すべき重要な機能

STT APIのパフォーマンスを評価

Top 10 STT API 2024 (by Deepgram)

関連記事

最近の記事

Claude Code サブエージェントの利用

Claude codeのコマンド類からみる設計思想の理解

Mac Mini+OllamaでLLMを動かす

カテゴリー

アーカイブ

検索