使用python通过剪贴板挖掘pdf数据 - Python脚本化操作系统

时间:2013-09-05 12:45:53

标签: python pdf datanitro

我编写了一个从pdf中提取数据的脚本。我正在使用win32clipboard模块将数据复制到python中。得到了如何在每个文件中获取所需数据的逻辑。

我的过程的缺点是我必须打开每个pdf Ctr-A然后选择所有然后Ctrl-C才能将它放入剪贴板。然后我运行我的脚本。作为参考,它使用DataNitro在Excel中运行。

我已经尝试过PDFMiner,但它似乎没有被维护,并且倾向于将文本分成小块。我正在挖掘的PDF包含许多“小”表。来自剪贴板的副本似乎做了很好的下降工作,将相关的东西保持在一起。

有关如何编写PDF选择全部和复制的脚本的任何建议。基本上我正在寻找一种脚本操作系统的python方式。直觉是这是不可能的,但也许有人知道。

1 个答案:

答案 0 :(得分:0)

我已经决定使用pyPdf了。它有一个简单的方法,只从pdf中提取文本。我编写了简单的函数来查找本文中需要的相关信息。将文本拆分为列表以便于识别数据。

还编写了一个循环来使用glob搜索来获取相关文件并将其提供给解析器。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')