自动连接PDF文本框

时间:2015-03-08 12:00:21

标签: linux pdf textbox ocr tesseract

我在Fraktur font中添加了一个文档,并使用tesseract执行了OCR(语言为 deu-frak )。我花了大约10天(每天24小时)来转换这23个问题(每个约400页)。

结果是一个可搜索的PDF,其中嵌入了原始图像,顶部是不可见文本: Compressed PDF from tesseract

现在,我已使用Master PDF Editor删除了图片,并将文字类型设置为"隐藏"到"全文"。事实证明,有些单词并未被tesseract识别,所以每个字母都是单独定位的: Text-only PDF from Master PDF Editor 请注意," kommen"被认为是单词,但" fruchtbaren"仅作为一系列字符。这使得无法找到" fruchtbaren"使用textsearch并在更改字体大小时,字母会重叠或产生难看的间隙。

我正在使用Linux并寻找一个命令行工具,它可以编写所有23个PDF文档的脚本。

是否可以连接最小距离的文本框,甚至连接一行都很棒?

感谢。

1 个答案:

答案 0 :(得分:0)

可能不是您想要听到的内容,但我会回过头来尝试对小代表样本进行预处理,Tesseract参数等,直到您获得尽可能好的初始OCR(包括分词)然后使用新设置重新运行OCR。如果您仍然发现需要某种类型的后处理,我再次在运行完整数据集之前,在小样本上构建并优化整个管道。

从表面上看,看起来Tesseract可以做得更好,只要你能够以足够的扫描分辨率为其提供干净的图像。