我已经能够使用以下代码阅读PDF格式的内容:PYMuPDF:
myfile = r"C:\users\xxx\desktop\testpdf1.pdf"
doc =fitz.open(myfile)
page=doc[1]
text = page.getText("text")
阅读PDF文件的内容,但是我无法阅读文本框注释是否有办法做到这一点?
答案 0 :(得分:1)
在页面对象上使用firstAnnot
。一旦你有一个注释对象,看起来你可以在它上面调用next
并获得其他对象。请注意Annot
页面底部的example。
我从Word文档创建了一个PDF,并添加了一个文本框和一个便笺。以下代码打印了每个内容。在info
内查找您可能需要的其他信息。
import fitz
pdf = fitz.open('WordTest.pdf')
page = pdf[0]
annot = page.firstAnnot
print(annot.info['content'])
next_annot = annot.next
print(next_annot.info['content'])
pdf.close()