生成PDF文件的本地链接/路径以便直接访问

时间:2016-05-03 09:28:09

标签: python pdf

我正在尝试用Python编写一个用于从PDF中提取数据的程序(Excel宏可以是一个选项)。 首先,想要在pdf文件中选择文本或位置,并在该位置生成指向该文件的本地路径/链接。此链接将复制到Excel单元格。单击链接时,PDF文档应在先前所选文本的指定坐标上打开。

我知道问题非常广泛。我是一个狂热的初学者,需要在正确的方向上轻推,并知道它是否可行。

如何在桌面上获取活动pdf文件的路径?和所选文本的坐标?我可以自动将这些作为参数提供给我的程序。

谢谢!

1 个答案:

答案 0 :(得分:0)

有很多方法可以做到这一点,我会说看看Slate - > https://pypi.python.org/pypi/slatehttp://www.unixuser.org/~euske/python/pdfminer/index.html

是的,这很容易,也可以查看pyPdf

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")