用于将Word文档文本转换为HTML的库

时间:2010-10-19 10:00:06

标签: c# asp.net html ms-word

是否有.Net开源库将单词dococument转换为HTML以显示在网页内。

我知道将Word文档转换为html文件的几种工具,但我的要求是在ASP.Net应用程序中将文档(从文件或刚提取的文本)转换为HTML。

我发现converting-a-word-document-into-usable-html-in-php PHP库做同样的事情,.net中是否有类似的工具?

2 个答案:

答案 0 :(得分:2)

您只想将* .doc文件转换为HTML?将它保存为HTML文件是一种选择吗?

标准的.SaveAs方法可以选择保存为HTML:

  

wdFormatHTML 使用HTML标记保存所有文本和格式,以便可以在Web浏览器中查看生成的文档。

来自:MSDN SaveAs Method

有关如何使用该方法将.doc转换为您可以在此处找到的其他格式的示例教程:How to convert DOC into other formats using C#

如果你有* .docx文件而不是* .doc文件,那就更容易了,因为你可以像在MSDN上解释的那样使用OpenXML API:Manipulating Word 2007 Files with the Open XML Format API (Part 1 of 3)。如果您获得Word文件的XML,您当然可以将其输出为您想要的任何格式(HTML)。

答案 1 :(得分:1)

借助JOdConverter和OpenOffice

将您的doc文件转换为pdf

请参阅How to convert ppt to images in Ruby?以获取参考资料

然后使用pdftohtml(http://pdftohtml.sourceforge.net)将PDF文件转换为HTML的实用程序。

你会得到惊人的结果。