如何使用win32com从word文档中获取颜色文本?

时间:2013-01-31 12:24:25

标签: python ms-word ms-office win32com

我有一个包含多个表的word文档。每张桌子都有两种颜色,黑色和红色。

我想通过颜色从word文档表格中的单元格中获取文本。我找到了一种方法,但我认为效率非常低。

以下代码从单词表格单元格中获取文本,并使用其颜色打印每个单词。

import os, sys
import win32com.client, re

path = os.path.join(os.getcwd(),"../files/tests2.docx")
word = win32com.client.Dispatch("Word.Application")
word.Visible = 1
doc=word.Documents.Open(path)

for table in doc.Tables:
    f = 2
    c = 2
    wc = table.Cell(f,c).Range.Words.Count
    for i in range(1,wc):
        print table.Cell(f,c).Range.Words(i), table.Cell(f,c).Range.Words(i).Font.Color

你知道其他(更好)的方法吗?

谢谢。

1 个答案:

答案 0 :(得分:3)

以下是使用python-docx从Word文档中提取突出显示的单词的方法:

#!usr/bin/python
# -*- coding: utf-8 -*-
from docx import *
document = opendocx(r'test.docx')
words = document.xpath('//w:r', namespaces=document.nsmap)
WPML_URI = "{http://schemas.openxmlformats.org/wordprocessingml/2006/main}"
tag_rPr = WPML_URI + 'rPr'
tag_highlight = WPML_URI + 'highlight'
tag_val = WPML_URI + 'val'
tag_t = WPML_URI + 't'
for word in words:
    for rPr in word.findall(tag_rPr):
        high=rPr.findall(tag_highlight)
        for hi in high:
            if hi.attrib[tag_val] == 'yellow':
                print word.find(tag_t).text.encode('utf-8').lower()