我正在使用语音转录引擎,它返回具有给定结果正确的相关置信度得分的结果。我想寻找在替代方案之间显示相似性的模式(暗示子字符串正确转录的可能性很高),并确定替代方案之间哪些字母/索引不同(暗示它们被正确转录的可能性较低)。
例如"price"
是正确的转录,序列"ric"
将被标记为可能是正确的:
price,0.8999
perica,0.6221
price,0.7847
perice,0.7208
pricee,0.7843
parice,0.6866
parica,0.5879
pricea,0.7861
brice,0.6957
prize,0.7438
pric,0.8811
terica,0.4677
brica,0.5805
pericee,0.6420
priceee,0.6976
prace,0.7502
trica,0.5805
terice,0.5664
trice,0.6957
prico,0.7828
此外,还需要权衡备选方案的置信度得分,以免离群值(低置信度得分的备选方案)与高置信度得分的备选方案一样重要。
这样做的目的是能够跟踪转录引擎比其他人更难以解决的字母组合。
有人知道适用于此类任务的任何现有算法吗?
谢谢