在不更改布局和格式的情况下,从python中的pdf提取文本的最佳方法是什么?

时间:2019-10-14 12:45:32

标签: pdf text pypdf2 pdfminer pdftotext

我想要pdf格式和布局准确的文本。
如果不是直接将pdf转换为文本,是否可以执行pdf-> xml->文本?
我已经尝试过PyPDF2,pdfminer和pdftotxt。甚至我尝试使用AWS textract并获得错误的布局。
基本上,如果我可以从pdf提取的文本中构造句子,就足够了。
我使用了Zamzar API,该API可以提供准确的输出,但它们的价格昂贵。 有什么解决办法吗?

1 个答案:

答案 0 :(得分:0)

如果您希望保留PDF的结构,但不保留字体,颜色,大小等,请尝试pdftables_api库。这应该保留您的PDF的布局。将CSV文件转换为CSV只是一个逗号分隔的文本文件。

如果您希望保留字体,颜色等,Zamzar API可能是您的最佳选择。