是否有.Net开源库将单词dococument转换为HTML以显示在网页内。
我知道将Word文档转换为html文件的几种工具,但我的要求是在ASP.Net应用程序中将文档(从文件或刚提取的文本)转换为HTML。
我发现converting-a-word-document-into-usable-html-in-php PHP库做同样的事情,.net中是否有类似的工具?
答案 0 :(得分:2)
您只想将* .doc文件转换为HTML?将它保存为HTML文件是一种选择吗?
标准的.SaveAs
方法可以选择保存为HTML:
wdFormatHTML 使用HTML标记保存所有文本和格式,以便可以在Web浏览器中查看生成的文档。
有关如何使用该方法将.doc转换为您可以在此处找到的其他格式的示例教程:How to convert DOC into other formats using C#。
如果你有* .docx文件而不是* .doc文件,那就更容易了,因为你可以像在MSDN上解释的那样使用OpenXML API:Manipulating Word 2007 Files with the Open XML Format API (Part 1 of 3)。如果您获得Word文件的XML,您当然可以将其输出为您想要的任何格式(HTML)。
答案 1 :(得分:1)
借助JOdConverter和OpenOffice
将您的doc文件转换为pdf请参阅How to convert ppt to images in Ruby?以获取参考资料
然后使用pdftohtml(http://pdftohtml.sourceforge.net)将PDF文件转换为HTML的实用程序。
你会得到惊人的结果。