如何折叠纯文本OCR输出中的间距错误?

时间:2015-04-20 20:25:37

标签: ocr tesseract

我正在寻找有关如何在纯文本OCR输出中解决间距错误的方法。下图应说明问题所在。几乎每个字母都重复同样的问题。许多例如像巨型狗一样跳过的字符串'作为'这是一个很好的例子。

关于源数据,这是一个数字化的历史报纸,因此非标准字体和打印实践给Tesseract带来了困难。

[http://i.stack.imgur.com/XNCzI.png]

0 个答案:

没有答案