我正在尝试用Python编写一个用于从PDF中提取数据的程序(Excel宏可以是一个选项)。 首先,想要在pdf文件中选择文本或位置,并在该位置生成指向该文件的本地路径/链接。此链接将复制到Excel单元格。单击链接时,PDF文档应在先前所选文本的指定坐标上打开。
我知道问题非常广泛。我是一个狂热的初学者,需要在正确的方向上轻推,并知道它是否可行。
如何在桌面上获取活动pdf文件的路径?和所选文本的坐标?我可以自动将这些作为参数提供给我的程序。
谢谢!
答案 0 :(得分:0)
有很多方法可以做到这一点,我会说看看Slate - > https://pypi.python.org/pypi/slate或http://www.unixuser.org/~euske/python/pdfminer/index.html
是的,这很容易,也可以查看pyPdf
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace("\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf")