从python中的docx文件中提取数据

时间:2012-04-28 03:36:07

标签: parsing python-3.x docx

我想从扩展名为docx的word文档中提取数据。本文档包含一个表格。我想从表的每一列和每行获取数据。

然后我想处理数据并将其插入各自字段下的Excel文件中。

任何人都可以指导我如何在python中执行此操作。

我在Windows 7上使用python3。(可能还想在Windows Server 2003上运行此代码)。

非常感谢任何帮助。

由于

1 个答案:

答案 0 :(得分:3)

尝试类似:

import win32com.client as w32c

Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
    table=tables[t_cnt]
    for r_cnt in range(table.Rows.Count):
        row=table.Rows[r_cnt]
        for c_cnt in range(row.Cells.Count):
            cell=row.Cells[c_cnt]
            print(cell.Range.Text)

Word文档上的ALT + F11和F2将显示VBA对象...在Perl中,上述过程可以更好地记录。

Python3的软件包xlrd3和xlwt3

支持读写Excel