我有一个PDF文件,其中包含文本,水印和一些具有不同字体样式的可编辑表单字段。我使用PyPDF2
模块来处理PDF文件,并使用了模块上可用的一些属性/方法/实用程序和一些示例代码片段,包括以下内容:
import PyPDF2
pdfFileObject = open('sample.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.getContents())
print(pageObj.extractText())
它会读取正确的页码,但我无法获取指定页码的所有文本内容和表单字段。
我正在寻找的实际情况是我必须更新PDF文件中的可编辑字段值,并找出特定字段是否可用。我必须操纵并检查PDF文件中的表单字段和文本。任何人都可以建议如何使用合适的模块,以便我可以轻松实现这些操作?
我正在围绕使用Python处理PDF的不同文章漫游,但我仍然无法确定哪种方式更适合完成任务。目前我正在使用Python 2.7。