应用错误收集

时间：2017-09-12 14:58:16

标签： pdf ocr text-recognition

我尝试使用Adobe Acrobat X Pro“识别多个文件中的文字”。

当我开始这个过程并询问目录时，我选择了C：，我的主硬盘。

加载需要数小时，完成后，它生成的文件列表也包含word文档。 Adobe说我删除问题文件后才能继续。

一旦我删除了所有标记为有错误的pdfs（如密码保护）并且提示仍然存在，我认为这意味着列表中的单词文档。

所以我手动删除了那些。但Adobe仍然表示，在问题文件被删除之前我无法继续进行，并且列表中没有任何剩余文件，adobe标记为存在问题。

我的公司正在努力确保我们拥有的所有PDF文件都是可搜索的。目前，有些是，有些则不是。我们的目标是使它们全部可搜索，而无需将它们从各种位置移除。

答案 0 :(得分：0)

我认为你可以使用

的组合来做到这一点

除非我错了，否则Tesseract甚至会为您提供此工作流程的粗略版本。但是一次只能获得1个pdf。所以你仍然需要一些windows / linux脚本来管道给定目录的所有文件。

答案 1 :(得分：0)

...试图确保我们拥有的所有PDF文件都是可搜索的。

您可以使用（免费）OCR.space API到create searchable PDFs

如果您提交的文档已经包含文本，则不会发生任何不良情况，只会添加另一个文本图层。