应用错误收集

我正在尝试从PDF中提取数据[价格，信息和数量]（我喜欢超过1万个PDF，因此该网站的免费试用无法正常工作）。这是我得到的PDF的一个示例：

我在Python（这种任务以及Python的初学者）中尝试了PyPDF2，pdfx等几个软件包，但我只得到了这样的文本

使用PyPDF2：

因此可以提取价格，数量和信息，但是我使用的pdf格式不同，因此不可能仅使用文本和某些算法来提取信息。

我想做的事情是有可能的，因为很多网站都在这样做，而且人们为此付费。我想垂直阅读它，并转换以XML / JSON提取的数据或只是数据集。

我想按列而不是按行阅读文档

是否可以使用python或其他语言来做到这一点？

首先让我告诉您，这并不是一个容易解决的问题，因为野外的PDF文件在布局上往往有很大差异。我可以建议尝试一个开源项目，该项目对于从PDF文件中的表中提取信息非常有用。它称为Tabula，您可以在https://tabula.technology上获得它。

Tabula将检测每个页面上的表格，并将内容导出为CSV格式。使用CSV格式存储后，使用Python获取信息应该会更容易。请注意，CSV布局取决于PDF中的表格布局，这意味着您可能需要创建一些函数才能正确提取信息。

Tabula并不完美，但它应适用于大多数PDF文件，对于那些无效的文件，您可能需要手动提取信息。