标签: ocr tesseract
我正在寻找有关如何在纯文本OCR输出中解决间距错误的方法。下图应说明问题所在。几乎每个字母都重复同样的问题。许多例如像巨型狗一样跳过的字符串'作为'这是一个很好的例子。
关于源数据,这是一个数字化的历史报纸,因此非标准字体和打印实践给Tesseract带来了困难。
[http://i.stack.imgur.com/XNCzI.png]