应用错误收集

如何折叠纯文本OCR输出中的间距错误？

时间：2015-04-20 20:25:37

标签： ocr tesseract

我正在寻找有关如何在纯文本OCR输出中解决间距错误的方法。下图应说明问题所在。几乎每个字母都重复同样的问题。许多例如像巨型狗一样跳过的字符串＆＃39;作为＆＃39;这是一个很好的例子。

关于源数据，这是一个数字化的历史报纸，因此非标准字体和打印实践给Tesseract带来了困难。

[http://i.stack.imgur.com/XNCzI.png]

0 个答案:

没有答案