Amazon Transcribeで話者を区別した文字起こし

ISO/TC295/SG1 Semantic modelでのZoom会議の記録音声から話者別に文字起しを実行した。

Transcribeの指定

ジョブ名他を指定

S3の音声ファイルを指定

話者別に識別するように指定

確かに英文としてデータが生成され、話者別に開始・終了時間等が出力されているもののこのままでは使いづらい。

色々調べるとAWS Forumにそれらしい回答があった。

transcript.py 2022/03-02/220302.json

実行結果
[0:10:07] spk_0: Hello everybody.

[0:10:09] spk_1: Good morning. Good evening. Oh

[0:10:13] spk_0: all right. Hello everyone.

[0:10:18] spk_1: Okay. It’s time to start today.

投稿日

2022-03-04

カテゴリー:

投稿者:

Nobuyuki

タグ: