比较字符串的可变性

时间:2019-03-09 07:44:06

标签: string algorithm comparison

我正在使用语音转录引擎,它返回具有给定结果正确的相关置​​信度得分的结果。我想寻找在替代方案之间显示相似性的模式(暗示子字符串正确转录的可能性很高),并确定替代方案之间哪些字母/索引不同(暗示它们被正确转录的可能性较低)。

例如"price"是正确的转录,序列"ric"将被标记为可能是正确的:

price,0.8999
perica,0.6221
price,0.7847
perice,0.7208
pricee,0.7843
parice,0.6866
parica,0.5879
pricea,0.7861
brice,0.6957
prize,0.7438
pric,0.8811
terica,0.4677
brica,0.5805
pericee,0.6420
priceee,0.6976
prace,0.7502
trica,0.5805
terice,0.5664
trice,0.6957
prico,0.7828 

此外,还需要权衡备选方案的置信度得分,以免离群值(低置信度得分的备选方案)与高置信度得分的备选方案一样重要。

这样做的目的是能够跟踪转录引擎比其他人更难以解决的字母组合。

有人知道适用于此类任务的任何现有算法吗?

谢谢

0 个答案:

没有答案