标签: algorithm text pattern-matching ocr
我需要比较两段文字,比如200字长。由于这些是通过OCR获得的,因此差异可能出现在两个层面:
单词拼写错误,
整个单词可能会丢失或合并,或插入额外的寄生块(在极端情况下,可以交换单词组)。
识别的输出将是相似性得分。我不认为将整个文本作为长字符串匹配就足够了。
您是否了解专门解决此问题的方法(两级Levenshtein ??)。有库吗?
(我不是在寻找OCR包。)