ドキュメント/バッチ文字起こし

バッチ文字起こし

音声ファイルをアップロードしてAmiVoice非同期APIで文字起こしする仕組みを説明します。

処理パイプライン

バッチ文字起こしは以下のステップで処理されます:

ブラウザ/API → FastAPI → AWS S3 → SQS → Worker → AmiVoice async HTTP → PostgreSQL
  1. アップロード: ブラウザUIまたはIngest APIからFastAPIにファイルを送信。
  2. S3保存: 音声ファイルがAWS S3に保存される。
  3. SQSキュー: 処理ジョブがSQSキューに追加される。
  4. Worker処理: Workerサービスがジョブを取得し、AmiVoice非同期HTTP APIに送信。
  5. 結果保存: 文字起こし結果がPostgreSQLに保存される。
  6. 自動分析: 自動分析が有効の場合、文字起こし完了後にOpenAI分析が実行される。

処理時間

処理時間はファイルの長さとサーバー負荷によって異なります。

通話の長さ目安の処理時間
3分3〜6分
5分5〜10分
10分10〜20分
30分30〜60分
ℹ️処理時間は実時間の1〜2倍が目安です。ピーク時はさらに時間がかかる場合があります。

ステータスの確認

処理状況はダッシュボードまたは通話ログページで確認できます(5秒ごとに自動更新)。

ステータス説明
QueuedS3にアップロード済み。SQSキュー待ち。
ProcessingAmiVoiceで文字起こし中。
Done文字起こし完了(分析も完了している場合あり)。
Failedエラーが発生。ログを確認してください。

言語コード

アップロード時に以下の言語コードを指定できます:

  • ja-JP — 日本語(AmiVoice日本語エンジン)
  • en-US — 英語

ステレオチャンネル分割

環境変数 TRANSCRIBE_BY_CHANNEL=true を設定すると、ステレオファイルのチャンネルを分割して処理します:

  • チャンネル0(左): エージェントの音声
  • チャンネル1(右): 顧客の音声

各チャンネルが別々に文字起こしされ、話者ラベルが自動的に付与されます。コンタクトセンター専用の録音システムとの連携に最適です。

💡ステレオ分割を使用すると、モノラルのAmiVoice話者分離より精度が高い場合があります。

次のステップ

ドキュメントトップサポートに問い合わせる →