我有700多个Word文档(大多数是.docm格式),内容是文本和表格的混合。
我正在尝试从表格中提取信息。经过多次搜索后,唯一可以检测表的Python库就是python-docx,它在指向.docm文件时会中断。 GitHub线程表明此问题尚未得到解决。
进一步搜索意味着将.docm转换为.docx将需要我学习VB或C#,这在我所拥有的时间范围内没有发生,除非我能获得一个绝对清晰的解释 - 就像我五种解决方案
有没有办法实现这个或潜在的替代路线?
答案 0 :(得分:0)
您要查找的python库称为docx2python。我有一个几乎相同的问题,它与.docm文件一起使用时效果很好。
答案 1 :(得分:0)
在梗塞区域中,您可以对Python-docx库进行细微的修改,详细说明请参见项目GitHub上的该pull请求,但遗憾的是尚未接受。
Pull Request #716: added support for .docm files
它包括对库文件的三个小修改,从而可以加载.docm文件。它将允许您加载这些类型的文件,并读取并修改这些文件的标准部分,但不允许您使用宏。