应用错误收集

如何从PDF中提取嵌入式OCR数据？

时间：2011-03-02 13:57:45

标签： pdf extract ocr pdf-scraping

我有带有嵌入式OCR数据的PDF文件。（所以我已经orcd他们）所以他们是可搜索的。现在我想提取这个OCR数据，因为我想在我的tomcat6搜索服务器中输入。为此，我需要普通的OCR数据。所以我的问题是，是否有可能从pdf文件中提取这个嵌入式OCR数据？获取带坐标的文件会很不错。但是获取纯文本文件也足够了。

1 个答案:

答案 0 :(得分：0)

您应该可以使用iText或iTextsharp执行此操作。然而，iTextsharp有0个文档，而且很多函数与iText中的函数不相同。

PDFSharp不支持iref流。这些都是唯一全面的开源解决方案。如果您不介意付费，vista解决方案可能适合您，他们主要处理工作流程，但他们也有一些非常广泛的pdf库。

如何从PDF中提取嵌入式OCR数据？
从嵌入字体的PDF文件中提取文本
从PDF中提取图像中的文本
使用PHP从PDF中提取图像
使用不正确的结构OCR从PDF中提取数据
从网页中提取嵌入的pdf文档
提取嵌入式pdf
从PDF提取格式为图片的表格数据
如何从扫描的PDF中提取表格数据？
从pdf中提取带下划线的文本

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？