如何从Python中的PDF文本框中提取文本?

时间:2018-05-25 00:50:23

标签: python pdf

我对pyPDF2PDFMiner没有任何好运。这些工具总是会为文本框返回_______________,即使它们已被填写。有没有人知道如何在文本框字段中提取文本?

1 个答案:

答案 0 :(得分:0)

您需要提取文本字段,而不是文本。所以你需要这样的东西:

import sys
import six
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

fp = open("c:\\tmp\\test.pdf", "rb")

parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog["AcroForm"])["Fields"]
for i in fields:
    field = resolve1(i)
    name, value = field.get("T"), field.get("V")
    print ("{0}:{1}".format(name,value))