某些语音到文本服务(例如Google语音到文本)通过区分来提供说话人区分,从而尝试在单个音频记录中识别和分离多个说话人。当会议室中的多个扬声器共享一个麦克风时,通常需要这样做。
是否有一种算法和实现来计算说话人分离的正确性?
这将与Word Error Rate结合使用,后者通常用于测试基线转录的正确性。
答案 0 :(得分:1)
在NIST-RT项目中,NIST定义的常用的误码率(DER)似乎是常用的方法。
DIHARD II: The Second DIHARD Speech Diarization Challenge中引入了Jaccard错误率(JER),这是更新的评估指标。
两个衡量这些项目的项目包括:
这些文件中引用了DER: