是否有可以OCR PDF的库(或可执行文件)(通常是通过扫描纸张创建的PDF),并将识别的文本注入PDF?可能是扫描图像背后的隐形文字。
最好是开源。
(目标:我有一个庞大的PDF文件库,由Lucene编制索引。如果PDF包含文本,Lucene会更容易找到相关的PDF文件。)
答案 0 :(得分:0)
最好的选择之一是可能使用Abbyy FineReader,因为它会为您提供许多选项,包括隐藏文本的创建。 www.abbyy.com我快速浏览了他们的网站,还看到了他们的Transformer产品,它可能更适合您的需求。
答案 1 :(得分:0)
如果PDF不包含文本,Lucene索引的内容是什么?
看看Docsplitt(https://github.com/documentcloud/docsplit)它可以使用Tesseract来执行OCR。您将获得纯文本文件,它反映了PDF的内容。您可以在这些文本文件之上构建Lucene索引,并在Lucene索引中存储对PDF的引用。查询Lucene索引后,您将获得文档列表,其中包含对原始PDF的引用。