我正试图从大量的.doc文件中抓取信息,因此我编写了一个python程序来为我做繁重的工作。 Word具有这种漂亮的功能,可以使首页的页眉和页脚不同。通常这很有用,但是我遇到了一个问题,但找不到合适的解决方案。
这是我访问页眉和页脚的方式:
import win32com
word_app = win32com.client.Distpatch('Word.Application')
doc = word_app.Documents.Open('path/to/my/word/file.docx')
first_footer = doc.Sections(1).Footers(1).Range.Text
print(first_footer)
不过,有一个陷阱:第一页包含整个文档中通用的页眉/页脚,但也包含第一页所特有的内容。上面的代码未捕获此唯一信息:它仅显示了整个文档中常见的首页上的页眉/页脚信息。
当首页的页眉和页脚中包含唯一内容时,如何使用python的win32com访问它?
答案 0 :(得分:0)
经过一番挖掘,我找到了答案。
事实证明,您需要在模块的常量位中使用一个名为“ wdHeaderFooterFirstPage”的常量来访问首页的页眉和页脚,如下所示:
doc.Sections(1).Headers(win32com.client.constants.wdHeaderFooterFirstPage).Range.Text
这将返回一个您可以像平常一样操作的字符串。很难找到win32com的文档,并且从VBA documentation进行翻译并不像我希望的那样明显。