解析PDF文档

时间:2015-06-16 23:28:31

标签: python parsing pdf nosql

我将在下面的链接中尝试pdf模块。假设有效,我的问题是:

有没有办法存储像合同这样的大型文本文档,并且能够一次查询来自多个文档的信息?

例如,我想查询终止日期或定价,然后能够读取该部分的合同列表。

1 个答案:

答案 0 :(得分:3)

我已经使用了pyPDF库(这是直接来自activeState网页):

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")

这应该是一个开始的好地方。我用它来自动测试创建的PDF。

更适合您的问题的更好的方法可能是使用Microsoft的SQL Server。他们对文档进行全文搜索(搜索" SQL Server全文搜索pdf")。如果您可以加载SQL服务器上的所有文档,则可以开始使用全文搜索来获取所需的信息。这可能比上述更容易和更灵活。