音声転写 - 音声転写に期待されるレイテンシーと精度のレベルはどの程度ですか?
トランスクリプションの精度 コンタクトセンター内では、音質、音声の明瞭度、トピックを通じて提供される追加トレーニングに基づ いて大きく変化する場合があります.
音声トランスクリプションの精度は、一般的にWord Error Rate (WER) によって測定されます。 WERは、音声転写時に誤って転写された単語の数を特定し、その数を手書き転写時の単語数で割ったものです。
エラーには3種類あります。
- Insertion (I)。 言葉が間違っている場合、トランスクリプトに追加されます。
- 削除 (D)。 トランスクリプト内で単語が検出されない場合。
- Substitution (S)。 関係ない言葉が代入される場合。
これらを合計し、手書き文字起こしの総単語数(N)で割ります。
そして、WERは以下の式で算出されます。
手動で書き写す。 今日は晴れていい天気です。
潜在的な音声転写の結果。 木曜日は晴れ晴れとした美しさです。
音声認識結果は、以下のようにエラーとなりました。
S=1(「今日」ではなく「木曜日」です)
D = 1 ( "and" が抜けている)
I = 1("a "が付く)
N=5語
この場合、WERは60%です。
文字ベースの言語では、WERの代わりに「文字誤り率」が使用されます。
ネイティブテープ起こしの精度については、3段階の成熟度があります。
- 一般に入手可能な: このモデルは、豊富な学習データに基づいて構築されています。
- プレビュー: このモデルは学習データに基づいて構築されるため、精度を向上させるためには追加の学習が必要となる。
- アーリープレビュー: モデルは限られた学習データで構築される。
Genesys Cloud 内では、音声はほぼリアルタイムで文字化され、標準的なレイテンシは 3-5 秒で、弊社のNotifications API からアクセス可能です。 対話の完全なトランスクリプトは、通話後すぐに、通常は15秒以内に、対話の詳細UIで利用可能になります。
詳しくは、Genesys Cloud 対応言語,音声転写の精度を上げるには?,音声転写を設定する,カスタムワード、製品名、ブランド名を正しく転写するには?.