应用错误收集

我在Fraktur font中添加了一个文档，并使用tesseract执行了OCR（语言为 deu-frak ）。我花了大约10天（每天24小时）来转换这23个问题（每个约400页）。

结果是一个可搜索的PDF，其中嵌入了原始图像，顶部是不可见文本： Compressed PDF from tesseract

现在，我已使用Master PDF Editor删除了图片，并将文字类型设置为＆＃34;隐藏＆＃34;到＆＃34;全文＆＃34;。事实证明，有些单词并未被tesseract识别，所以每个字母都是单独定位的： Text-only PDF from Master PDF Editor 请注意，＆＃34; kommen＆＃34;被认为是单词，但＆＃34; fruchtbaren＆＃34;仅作为一系列字符。这使得无法找到＆＃34; fruchtbaren＆＃34;使用textsearch并在更改字体大小时，字母会重叠或产生难看的间隙。

我正在使用Linux并寻找一个命令行工具，它可以编写所有23个PDF文档的脚本。

是否可以连接最小距离的文本框，甚至连接一行都很棒？

感谢。

自动连接PDF文本框

1 个答案: