我正在尝试解析NSDUH数据,该数据可在此处公开获取:
http://datafiles.samhsa.gov/study-series/national-survey-drug-use-and-health-nsduh-nid13517
我见过Python包,例如PDFMiner和tabula-py,但是当我遇到一个由空格分隔的表时,我却没有成功。这是一个难以标记为“表格”对象的调查回复示例:
我在一起最有希望的作品是利用此处提供的“ xpdf命令行工具”:https://www.xpdfreader.com/download.html
我将“ pdftotext.exe”文件放在我的Python目录中,并且可以使用此命令创建我要操作的pdf文件的近乎完美的文本副本:
C:\ Users \ UserName \ Python \ Python37> pdftotext.exe -layout NameOfPDF.pdf
不幸的是,此输出仍然需要依赖一系列正则表达式。如果有一个开源软件或python软件包可以检测到附加的图像应被视为其中包含数据点的一个连续块,那么就可以解决我的问题。