应用错误收集

python中的Docx内容和格式提取

时间：2012-06-29 15:54:27

标签： python file-io xml-parsing fileparsing

我正在尝试解析一个docx文件夹，并根据某些单词取决于某些单词是否加粗。如果这是文档中的文字：

Foo：您好

的啵： 的 Blah Blah

•布拉赫

•布拉赫

Choo： 您好

我想逐行扫描，并在粗体字之后取出所有文本，直到下一个粗体字。

截至目前，我正在使用基于换行符进行解析的XML解析器。我在Zipfile或单独的行中找不到任何可以给我这样的元数据的东西。

是否可以这样做？

1 个答案:

答案 0 :(得分：0)

我使用的是支持读取docx文件的高级库，而不是解析XML文档。

查看该任务的一个库是python-docx。

如果你正在使用Jython，Apache POI HWPF是另一种选择。