我正在尝试使用C#,. NET 2.0和Microsoft.Office.Interop.Word命名空间将Microsoft Word(.doc)文件的内容转换为格式良好的XHTML。这只是我正在构建的一个小exe,我希望它可以集成到我们的自动构建过程中。我这样做的原因是因为Word内置的“另存为网页”对HTML生成起了很大作用。我正在使用Microsoft Word 2003。
我在这方面寻找资源,但超出了MSDN参考(http://msdn.microsoft.com/en-us/library/microsoft.office.interop.word%28office.11%29.aspx)和一些关于如何创建word文档的教程(不是以允许创建另一种格式的方式阅读它们)我的空白。
到目前为止,我有一个小应用程序将遍历打开的Word文档中的所有段落,并将其文本包装在HTML段落标记中并将其输出到HTML文件。看来,在Word中,所有内容都被视为一个段落,所以我发现无法确定当前段落是列表,表格,标题等。表格,列表等都有单独的集合。 ,但似乎没有办法(我发现)从Microsoft.Office.Interop.Word命名空间提供的对象模型的内容派生订单。
首先,是否有人知道使用Microsoft.Office.Interop.Word命名空间做任何我想要实现的目标的好资源?
其次,我试图在这里重新发明轮子(前面我之前解释为什么我没有使用“另存为网页”功能)或者根据我选择的方法/技术咆哮错误的树代码库?
我知道MS Office 2007及更高版本对Office Open XML格式(http://en.wikipedia.org/wiki/Office_Open_XML)的支持越来越多,所以假设可能有任何好的XML转换。
此外,显然有一些好的产品用于我所描述的那种类型,但似乎没有任何好的开源替代品。
答案 0 :(得分:-1)
我讨厌Interop。 Interop感觉就像一块污泥,因为 是一块污泥。
您可以在Word 2007中打开文档,“另存为” - > “其他格式”,选择一种XML格式,并使用System.XML处理生成的XML?从一个XML文档转换到另一个XML文档比使用Interop更容易。