我想要pdf格式和布局准确的文本。
如果不是直接将pdf转换为文本,是否可以执行pdf-> xml->文本?
我已经尝试过PyPDF2,pdfminer和pdftotxt。甚至我尝试使用AWS textract并获得错误的布局。
基本上,如果我可以从pdf提取的文本中构造句子,就足够了。
我使用了Zamzar API,该API可以提供准确的输出,但它们的价格昂贵。
有什么解决办法吗?
答案 0 :(得分:0)
如果您希望保留PDF的结构,但不保留字体,颜色,大小等,请尝试pdftables_api库。这应该保留您的PDF的布局。将CSV文件转换为CSV只是一个逗号分隔的文本文件。
如果您希望保留字体,颜色等,Zamzar API可能是您的最佳选择。