我想识别我的计算机上所有pdf的文本并保存它们而不将它们从它们的位置移开。可能吗?

时间:2017-09-12 14:58:16

标签: pdf ocr text-recognition

我尝试使用Adobe Acrobat X Pro“识别多个文件中的文字”。

当我开始这个过程并询问目录时,我选择了C:,我的主硬盘。

加载需要数小时,完成后,它生成的文件列表也包含word文档。 Adobe说我删除问题文件后才能继续。

一旦我删除了所有标记为有错误的pdfs(如密码保护)并且提示仍然存在,我认为这意味着列表中的单词文档。

所以我手动删除了那些。但Adobe仍然表示,在问题文件被删除之前我无法继续进行,并且列表中没有任何剩余文件,adobe标记为存在问题。

我的公司正在努力确保我们拥有的所有PDF文件都是可搜索的。目前,有些是,有些则不是。我们的目标是使它们全部可搜索,而无需将它们从各种位置移除。

2 个答案:

答案 0 :(得分:0)

我认为你可以使用

的组合来做到这一点
  • 常规java:列出目录中与给定标准匹配的所有文件(例如,他们的名称以' .pdf'结尾)
  • iText:迭代PDF文档并提取所有图像
  • Tess4J:用于java的Tesseract(谷歌OCR引擎)端口,用于将提取的图像转换回文本

除非我错了,否则Tesseract甚至会为您提供此工作流程的粗略版本。但是一次只能获得1个pdf。所以你仍然需要一些windows / linux脚本来管道给定目录的所有文件。

答案 1 :(得分:0)

  

...试图确保我们拥有的所有PDF文件都是可搜索的。

您可以使用(免费)OCR.space API到create searchable PDFs

如果您提交的文档已经包含文本,则不会发生任何不良情况,只会添加另一个文本图层。