如何在C#中将MS Word 2003文档转换为HTML?

时间:2009-05-25 12:32:43

标签: c# .net ms-word

我想在C#中将MS Word 2003文档的内容提取为HTML。

有什么想法吗?

2 个答案:

答案 0 :(得分:3)

我认为这是最简单的方法

http://asptutorials.net/C-SHARP/convert-ms-word-docs-to-html/

他们在文章中的关键点是他们使用SaveAs函数 http://msdn.microsoft.com/en-us/library/aa220734.aspx

像这样:

    string newfilename = folder_to_save_in + FileUpload1.FileName.Replace(".doc", ".html");
    object o_nullobject = System.Reflection.Missing.Value;    
    object o_newfilename = newfilename;
    object o_format = Word.WdSaveFormat.wdFormatHTML;
    object o_encoding = Microsoft.Office.Core.MsoEncoding.msoEncodingUTF8;
    object o_endings = Word.WdLineEndingType.wdCRLF;
    // SaveAs requires lots of parameters, but we can leave most of them empty:
    wordApplication.ActiveDocument.SaveAs(ref o_newfilename, ref o_format, ref o_nullobject,
    ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject,
    ref o_nullobject, ref o_nullobject, ref o_encoding, ref o_nullobject,
    ref o_nullobject, ref o_endings, ref o_nullobject);

图书馆是 的Microsoft.Office.Interop.Word;

如果我没记错的话,在执行代码的机器上需要Word。如果它是ASP.NET,则在服务器上需要它。

答案 1 :(得分:0)

三种方式: 1.保存为HTML,如napster所述 2.将Open XML转换为HTML; XSLT可在http://www.codeplex.com/OpenXMLViewer获得 3.对于最干净的HTML,编写代码将文档中的每个样式转换为CSS,并在@style中放置任何直接格式。

运行C#代码的计算机上是否安装了Word?