从docx文件中提取某些字体的文本

时间:2014-09-01 09:52:01

标签: python python-3.x docx python-docx

我正在使用python 3.4和python-docx库来处理.docx个文件。我已经能够从文档中提取文本。但我的目标是仅提取具有特定字体的文本(并修改它们)。

过去两天我一直在library documentation搜索此内容而没有结果。

这里有没有人有这个图书馆的经验,如果有的话,他们会指出我正确的方向。

1 个答案:

答案 0 :(得分:2)

目前,python-docx只能使用样式应用字体字体。您可以检测具有如下特定样式的运行:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    for run in paragraph.runs:
        if run.style == style_I_want:
            print run.text

如果使用段落样式应用特殊字体,您可以使用:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    if paragraph.style == style_I_want:
        print paragraph.text

如果您可以更详细地说明细节,我可能会更具体。