应用错误收集

如何使用java从扫描的pdf文件中提取文本

时间：2013-09-26 07:17:41

标签： java itext tesseract pdfbox pdftotext

我手动扫描了一些硬拷贝文件并存储到pdf文件中（软拷贝）。现在这些pdf文件是我的输入，所以我需要从这些pdf文件中提取文本。我尝试了tika，pdfbox，itext，tess4j没有给我的文件50％的准确度（主要是垃圾数据）给我的文件（获取从互联网上下载的其他pdf的确切文本），你能建议我解决这个问题。

由于

0 个答案:

没有答案

如何从扫描的PDF文件（Java）创建和提取图像
PHP文本从扫描的PDF中提取
如何使用java从扫描的pdf文件中提取文本
无法使用TesseractOCRConfig Apache Tika提取扫描的pdf
如何使用python从扫描的文档中提取文本
如何从扫描的pdf中提取图像
PyPDF2从扫描的pdf中提取垂直文本
如何从扫描的PDF中提取表格数据？
从带有图像的扫描pdf中提取文本？
使用Pdfminer从扫描的PDF中提取文本

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？