查找/解析由空白分隔的PDF表的程序包

时间:2019-05-30 19:54:56

标签: python pdf whitespace

我正在尝试解析NSDUH数据,该数据可在此处公开获取:

http://datafiles.samhsa.gov/study-series/national-survey-drug-use-and-health-nsduh-nid13517

我见过Python包,例如PDFMiner和tabula-py,但是当我遇到一个由空格分隔的表时,我却没有成功。这是一个难以标记为“表格”对象的调查回复示例:

Tobacco Usage Survey - Example Question

我在一起最有希望的作品是利用此处提供的“ xpdf命令行工具”:https://www.xpdfreader.com/download.html

我将“ pdftotext.exe”文件放在我的Python目录中,并且可以使用此命令创建我要操作的pdf文件的近乎完美的文本副本:

C:\ Users \ UserName \ Python \ Python37> pdftotext.exe -layout NameOfPDF.pdf

不幸的是,此输出仍然需要依赖一系列正则表达式。如果有一个开源软件或python软件包可以检测到附加的图像应被视为其中包含数据点的一个连续块,那么就可以解决我的问题。

1 个答案:

答案 0 :(得分:0)

https://camelot-py.readthedocs.io/en/master/

根据需要提供最好的东西。