トランスクリプションの精度 コンタクトセンター内では、音質、音声の明瞭度、トピックを通じて提供される追加トレーニングに基づ いて大きく変化する場合があります.

音声トランスクリプションの精度は、一般的にWord Error Rate (WER) によって測定されます。 WERは、音声転写時に誤って転写された単語の数を特定し、その数を手書き転写時の単語数で割ったものです。 

エラーには3種類あります。

  • Insertion (I)。 言葉が間違っている場合、トランスクリプトに追加されます。
  • 削除 (D)。 トランスクリプト内で単語が検出されない場合。
  • Substitution (S)。 関係ない言葉が代入される場合。

これらを合計し、手書き文字起こしの総単語数(N)で割ります。 

そして、WERは以下の式で算出されます。

WER式

手動で書き写す。 今日は晴れていい天気です。

潜在的な音声転写の結果。 木曜日は晴れ晴れとした美しさです。

音声認識結果は、以下のようにエラーとなりました。

S=1(「今日」ではなく「木曜日」です)

D = 1 ( "and" が抜けている)

I = 1("a "が付く)

N=5語

この場合、WERは60%です。

文字ベースの言語では、WERの代わりに「文字誤り率」が使用されます。

ネイティブテープ起こしの精度については、3段階の成熟度があります。

  • 一般に入手可能な: このモデルは、豊富な学習データに基づいて構築されています。
  • プレビュー: このモデルは学習データに基づいて構築されるため、精度を向上させるためには追加の学習が必要となる。
  • アーリープレビュー: モデルは限られた学習データで構築される。

Genesys Cloud 内では、音声はほぼリアルタイムで文字化され、標準的なレイテンシは 3-5 秒で、弊社のNotifications API からアクセス可能です。  対話の完全なトランスクリプトは、通話後すぐに、通常は15秒以内に、対話の詳細UIで利用可能になります。

詳しくは、Genesys Cloud 対応言語,音声転写の精度を上げるには?,音声転写を設定する,カスタムワード、製品名、ブランド名を正しく転写するには?.