应用错误收集

可以将OCR文本插入源PDF的OCR库

时间：2011-02-28 04:30:22

标签： pdf ocr

是否有可以OCR PDF的库（或可执行文件）（通常是通过扫描纸张创建的PDF），并将识别的文本注入PDF？可能是扫描图像背后的隐形文字。

最好是开源。

（目标：我有一个庞大的PDF文件库，由Lucene编制索引。如果PDF包含文本，Lucene会更容易找到相关的PDF文件。）

2 个答案:

答案 0 :(得分：0)

最好的选择之一是可能使用Abbyy FineReader，因为它会为您提供许多选项，包括隐藏文本的创建。 www.abbyy.com我快速浏览了他们的网站，还看到了他们的Transformer产品，它可能更适合您的需求。

http://www.abbyy.com.au/pdftransformer/product_features/

答案 1 :(得分：0)

如果PDF不包含文本，Lucene索引的内容是什么？

看看Docsplitt（https://github.com/documentcloud/docsplit）它可以使用Tesseract来执行OCR。您将获得纯文本文件，它反映了PDF的内容。您可以在这些文本文件之上构建Lucene索引，并在Lucene索引中存储对PDF的引用。查询Lucene索引后，您将获得文档列表，其中包含对原始PDF的引用。