是否所有MS Word文档都以XML可读格式序列化?

时间:2010-04-18 22:19:34

标签: xml ms-word

我正在尝试了解如何在Microsoft Word打开时重建Word文件,以及在保存编辑和关闭文件时它们以什么格式序列化。您可能拥有的任何信息对我都非常有用吗?感谢

2 个答案:

答案 0 :(得分:5)

所有.doc文件都存储在binary format中。打开和操纵这些是PAIN中的练习。

所有.docx文件实际上是以ZIP格式存储的XML文件的集合。这是正确的,只需将.docx或.xmlx或.pptx的扩展名更改为.ZIP,就可以像打开任何其他ZIP文件一样打开文件。 MS甚至还有一个名为Office Open XML的格式的API。就个人而言,我认为OOXML API有一个非常陡峭的学习曲线,当我倾向于制作Word文件或以其他方式操纵它们时,我只是制作一个示例文件,解压缩它并操纵它的内部。 IMO OOXML文件的基础知识非常简单,无需使用大型旧API ...

答案 1 :(得分:2)

  

所有MS Word文档是否都以XML可读格式序列化?

简答:不。

答案很长:每发布一次,MS都会更改word文档的格式。因此Word 6.0到95使用格式,Word 97到2002(a.k.a. XP)使用另一个,2003年另一个,2007年又使用另一个。

当然,每个版本都可以保存和打开较旧格式的文档(虽然较新的功能通常无法保存在较旧的格式上)。

2003年之前的格式(.doc)是之前格式的增量升级,并且是基于二进制的。

Office 2007(.docx)引入的格式是基于XML的,并且被强制作为ISO标准“ISO / IEC 29500:2008 Office Open XML”,尽管单词本身并不完全符合该标准。请注意,Word 2007仍然可以使用较旧的二进制格式保存(和打开)文档。

希望这有帮助。