无论是否选中(打勾),我都很难从填写的表格中读取内容。我目前正在使用PyPDF2提取效果很好的文本。
这是我的代码:
from PyPDF2 import PdfFileReader
infile = "test.pdf"
pdf_reader = PdfFileReader(open(infile, "rb"))
dictionary = pdf_reader.getFormTextFields() # returns a python dictionary
如果有人对此有任何提示,我将非常感激:)
干杯, 阿斯特鲁斯
答案 0 :(得分:0)
PyPDF2还具有getFields()命令,该命令返回检查框的状态。在您的示例中,您将使用pdf_reader.getFields()对其进行调用。它将返回一个字典,其中提供复选框的名称,检查状态(如果选中,则为“是”,如果未选中,则为空白)以及其他一些信息。以我的经验,复选框的名称并没有多大帮助,因此弄清楚如何将复选框结果与文本联系起来可能是一个挑战。
以下是getFields的文档:https://pythonhosted.org/PyPDF2/PdfFileReader.html#PyPDF2.PdfFileReader.getFields