巨大的docx充满了<w:p>标签</w:p>

时间:2014-12-15 16:59:54

标签: ms-word openxml

我女朋友正在写一份Word文档作家庭作业。她按照老师的要求使用旧的.doc格式(:&#39;()。 在某些时候,.doc文件从150 kB增加到2.6 MB,没有明显的变化(在Dropbox历史中看到。可悲的是,Word的比较功能失败,因为Word崩溃)。从那时起,她无法保存她的文件而不会崩溃......

我将.doc转换为docx,解压缩它,并找到了一个18 MB的document.xml文件! 我甚至无法正确格式化xml,因为它崩溃了Notepad ++,但我可以看到该文件被反复重复的相同xml标记填充:

<w:p w:rsidR="002A70E5" w:rsidRDefault="002A70E5" w:rsidP="00565ED9"/>

你知道可能导致这种情况的原因吗?

编辑:Here's the docx

EDIT2:这个问题的动机比寻找修复更有好奇心。谢谢你的答案。

2 个答案:

答案 0 :(得分:1)

如果您愿意直接编辑XML,则可以删除所有空的<w:p>代码并重新压缩。

如果您熟悉Python,可以试试python-docx并使用它来删除所有空段落。

希望这至少可以恢复她迄今所做的工作。

不确定这是怎么发生的,或者它是否重要。我唯一能想到的是键盘上的一个粘滞的返回键,它会插入大量的回车。每个插入一个新的段落。实际上我偶尔会在Mac上运行的Windows虚拟机上发生这种情况。不知道为什么会这样做。

答案 1 :(得分:-1)

您正在谈论的

标签是用于构建word文档的OpenXml格式。 openxml将文档存储为压缩文件,我担心你会看到解压缩的document.xml文件。如果您想继续使用doc,只需将doc文件转换为docx即可。不要解压缩它。