音声認識分野で面白い動きに気づきました。Sierraはμ-Benchという多言語のASRシステム評価用データセットを公開し、これはかなり本格的な一歩のようです。



要点は:このセットには、カスタマーサービスからの250の実録録音と4270のアノテーション済み音声クリップが含まれています。既存のベンチマークと異なる点は、英語だけでなく、5つの言語をサポートしていることです — 英語、スペイン語、トルコ語、ベトナム語、北京語。

特に興味深いのは、新しい指標のUER (発話エラー率)です。これは、意味を変える誤りと、意味を損なわない誤りを区別します。これは従来のWER指標よりもはるかに微妙で、すべての誤りを同じように扱うわけではありません。

テスト結果によると:Google Chirp-3が精度でリードし、Deepgram Nova-3が最も高速ですが、多言語対応では遅れをとっています。今後の展開が非常に気になります。

データセットと結果表はすでにHugging Faceで公開されており、他の開発者も評価に参加できます。μ-Benchは、カスタマーサービス環境におけるASRの新たな標準になりつつあるようです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン