标签: string ocr levenshtein-distance
我有一个使用OCR提取的文本,需要在其中查找与查询字符串最相似的子字符串。我使用了Set-ExecutionPolicy中描述的方法。和here。 对于两个字符a和b,使用定义为d(a,b) = int(a!=b)的距离时,我们具有Levenshtein的距离。但就我而言,某些错误比其他错误更常见,因为它们来自OCR。例如,与 c 相比, i 更可能被读为 1 。 有什么方法可以根据两个字符(光学上的相似度)来定义两个字符之间的距离?
a
b
d(a,b) = int(a!=b)