标签: python file-io xml-parsing fileparsing
我正在尝试解析一个docx文件夹,并根据某些单词取决于某些单词是否加粗。如果这是文档中的文字:
Foo:您好
的啵: 的 Blah Blah
•布拉赫
Choo: 您好
我想逐行扫描,并在粗体字之后取出所有文本,直到下一个粗体字。
截至目前,我正在使用基于换行符进行解析的XML解析器。我在Zipfile或单独的行中找不到任何可以给我这样的元数据的东西。
是否可以这样做?
答案 0 :(得分:0)
我使用的是支持读取docx文件的高级库,而不是解析XML文档。
查看该任务的一个库是python-docx。
如果你正在使用Jython,Apache POI HWPF是另一种选择。