我女朋友正在写一份Word文档作家庭作业。她按照老师的要求使用旧的.doc格式(:'()。 在某些时候,.doc文件从150 kB增加到2.6 MB,没有明显的变化(在Dropbox历史中看到。可悲的是,Word的比较功能失败,因为Word崩溃)。从那时起,她无法保存她的文件而不会崩溃......
我将.doc转换为docx,解压缩它,并找到了一个18 MB的document.xml文件! 我甚至无法正确格式化xml,因为它崩溃了Notepad ++,但我可以看到该文件被反复重复的相同xml标记填充:
<w:p w:rsidR="002A70E5" w:rsidRDefault="002A70E5" w:rsidP="00565ED9"/>
你知道可能导致这种情况的原因吗?
EDIT2:这个问题的动机比寻找修复更有好奇心。谢谢你的答案。
答案 0 :(得分:1)
如果您愿意直接编辑XML,则可以删除所有空的<w:p>
代码并重新压缩。
如果您熟悉Python,可以试试python-docx
并使用它来删除所有空段落。
希望这至少可以恢复她迄今所做的工作。
不确定这是怎么发生的,或者它是否重要。我唯一能想到的是键盘上的一个粘滞的返回键,它会插入大量的回车。每个插入一个新的段落。实际上我偶尔会在Mac上运行的Windows虚拟机上发生这种情况。不知道为什么会这样做。
答案 1 :(得分:-1)
您正在谈论的
标签是用于构建word文档的OpenXml格式。 openxml将文档存储为压缩文件,我担心你会看到解压缩的document.xml文件。如果您想继续使用doc,只需将doc文件转换为docx即可。不要解压缩它。