概要
音声AI(ASR)を選ぶ際、多くの企業が汎用モデルWhisperと日本語特化のAmiVoiceを比較検討します。本記事では、日本のコンタクトセンターで実際に使われる音声データを用いた比較結果をまとめます。
評価条件
- データ:実際のコンタクトセンター通話100件(顧客同意取得済み)
- 評価指標:単語誤り率(WER)、固有名詞認識率、敬語認識率
- 比較対象:AmiVoice(-a-general エンジン)vs OpenAI Whisper(large-v3)
結果サマリー
| 項目 | AmiVoice | Whisper large-v3 | |------|----------|-----------------| | 全体WER | 4.2% | 8.7% | | 固有名詞(企業名) | 91% | 72% | | 敬語表現 | 96% | 83% | | 方言(関西弁) | 88% | 61% | | 処理速度(リアルタイム) | 対応 | 非対応(バッチのみ) |
AmiVoiceが優れている理由
1. 日本語ビジネス語彙の学習データ
AmiVoiceは長年、日本のコールセンター音声を学習データとして蓄積しています。金融・保険・通信・小売など業界固有の専門用語も高精度に認識します。
2. 話者分離(ダイアリゼーション)
コールセンターのステレオ録音(エージェントチャンネル・顧客チャンネル)を正確に分離。「誰が何を言ったか」を明確に把握できます。
3. リアルタイム対応
WebSocket APIによるリアルタイム文字起こしが可能。エージェントの画面に即座にキャプションを表示できます。
Whisperが適しているケース
- 多言語コンテンツの処理
- リアルタイム性が不要なコスト重視の用途
- 英語中心のグローバル対応
結論
日本のコンタクトセンターでは、AmiVoiceの精度優位性は明確です。特に敬語・専門用語・リアルタイム対応が必要な場合は、AmiVoice一択と言えます。
KoeIQはAmiVoiceをコアエンジンとして採用し、さらにGPT-4oによる分析を組み合わせることで、文字起こしから品質スコアリングまでを一気通貫で提供しています。