Question

我正在使用语音转录引擎，它返回具有给定结果正确的相关置信度得分的结果。我想寻找在替代方案之间显示相似性的模式（暗示子字符串正确转录的可能性很高），并确定替代方案之间哪些字母/索引不同（暗示它们被正确转录的可能性较低）。

例如"price"是正确的转录，序列"ric"将被标记为可能是正确的：

price,0.8999
perica,0.6221
price,0.7847
perice,0.7208
pricee,0.7843
parice,0.6866
parica,0.5879
pricea,0.7861
brice,0.6957
prize,0.7438
pric,0.8811
terica,0.4677
brica,0.5805
pericee,0.6420
priceee,0.6976
prace,0.7502
trica,0.5805
terice,0.5664
trice,0.6957
prico,0.7828

此外，还需要权衡备选方案的置信度得分，以免离群值（低置信度得分的备选方案）与高置信度得分的备选方案一样重要。

这样做的目的是能够跟踪转录引擎比其他人更难以解决的字母组合。

有人知道适用于此类任务的任何现有算法吗？

谢谢

比较字符串的可变性

0 个答案: