应用错误收集

大致文本匹配

时间：2017-06-15 07:34:25

标签： algorithm text pattern-matching ocr

我需要比较两段文字，比如200字长。由于这些是通过OCR获得的，因此差异可能出现在两个层面：

单词拼写错误，
整个单词可能会丢失或合并，或插入额外的寄生块（在极端情况下，可以交换单词组）。

识别的输出将是相似性得分。我不认为将整个文本作为长字符串匹配就足够了。

您是否了解专门解决此问题的方法（两级Levenshtein ??）。有库吗？

（我不是在寻找OCR包。）

0 个答案:

没有答案