python中的Docx内容和格式提取

时间:2012-06-29 15:54:27

标签: python file-io xml-parsing fileparsing

我正在尝试解析一个docx文件夹,并根据某些单词取决于某些单词是否加粗。如果这是文档中的文字:

Foo:您好

啵: 的 Blah Blah

•布拉赫

•布拉赫

Choo: 您好

我想逐行扫描,并在粗体字之后取出所有文本,直到下一个粗体字。

截至目前,我正在使用基于换行符进行解析的XML解析器。我在Zipfile或单独的行中找不到任何可以给我这样的元数据的东西。

是否可以这样做?

1 个答案:

答案 0 :(得分:0)

我使用的是支持读取docx文件的高级库,而不是解析XML文档。

查看该任务的一个库是python-docx

如果你正在使用Jython,Apache POI HWPF是另一种选择。