应用错误收集

在不更改布局和格式的情况下，从python中的pdf提取文本的最佳方法是什么？

时间：2019-10-14 12:45:32

标签： pdf text pypdf2 pdfminer pdftotext

我想要pdf格式和布局准确的文本。
如果不是直接将pdf转换为文本，是否可以执行pdf-> xml->文本？
我已经尝试过PyPDF2，pdfminer和pdftotxt。甚至我尝试使用AWS textract并获得错误的布局。
基本上，如果我可以从pdf提取的文本中构造句子，就足够了。
我使用了Zamzar API，该API可以提供准确的输出，但它们的价格昂贵。有什么解决办法吗？

1 个答案:

答案 0 :(得分：0)

如果您希望保留PDF的结构，但不保留字体，颜色，大小等，请尝试pdftables_api库。这应该保留您的PDF的布局。将CSV文件转换为CSV只是一个逗号分隔的文本文件。

如果您希望保留字体，颜色等，Zamzar API可能是您的最佳选择。

从特定部分提取文本pdf
从PDF到CSV的特定页面中提取表的最有效方法是什么
从文本中提取数据的最佳方法是什么？
在这种情况下，提取文本的最佳方法是什么？
对时间文本数据进行分类的最佳方法是什么？
什么是从pdf提取数据的最佳方法
在不更改布局和格式的情况下，从python中的pdf提取文本的最佳方法是什么？
使用pdf格式上传数据的有效方法是什么？
组织Python类的最佳方法是什么？
考虑这一点的最佳方法是什么？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？