可以将OCR文本插入源PDF的OCR库

时间:2011-02-28 04:30:22

标签: pdf ocr

是否有可以OCR PDF的库(或可执行文件)(通常是通过扫描纸张创建的PDF),并将识别的文本注入PDF?可能是扫描图像背后的隐形文字。

最好是开源。

(目标:我有一个庞大的PDF文件库,由Lucene编制索引。如果PDF包含文本,Lucene会更容易找到相关的PDF文件。)

2 个答案:

答案 0 :(得分:0)

最好的选择之一是可能使用Abbyy FineReader,因为它会为您提供许多选项,包括隐藏文本的创建。 www.abbyy.com我快速浏览了他们的网站,还看到了他们的Transformer产品,它可能更适合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

答案 1 :(得分:0)

如果PDF不包含文本,Lucene索引的内容是什么?

看看Docsplitt(https://github.com/documentcloud/docsplit)它可以使用Tesseract来执行OCR。您将获得纯文本文件,它反映了PDF的内容。您可以在这些文本文件之上构建Lucene索引,并在Lucene索引中存储对PDF的引用。查询Lucene索引后,您将获得文档列表,其中包含对原始PDF的引用。