如何从PDF中提取嵌入式OCR数据?

时间:2011-03-02 13:57:45

标签: pdf extract ocr pdf-scraping

我有带有嵌入式OCR数据的PDF文件。 (所以我已经orcd他们)所以他们是可搜索的。现在我想提取这个OCR数据,因为我想在我的tomcat6搜索服务器中输入。为此,我需要普通的OCR数据。 所以我的问题是,是否有可能从pdf文件中提取这个嵌入式OCR数据? 获取带坐标的文件会很不错。但是获取纯文本文件也足够了。

1 个答案:

答案 0 :(得分:0)

您应该可以使用iText或iTextsharp执行此操作。然而,iTextsharp有0个文档,而且很多函数与iText中的函数不相同。

PDFSharp不支持iref流。这些都是唯一全面的开源解决方案。如果您不介意付费,vista解决方案可能适合您,他们主要处理工作流程,但他们也有一些非常广泛的pdf库。