如何将HTML文件转换为单词?

时间:2009-10-26 12:19:27

标签: html ms-word

我有一个要求,我需要将HTML文档保存在内存中作为Word .DOC文件。

任何人都可以给我一些关于我可以用来做封锁和开源库的链接吗?

另外,我应该编辑这个问题,添加我正在使用的语言,以缩小选择范围。

谢谢!

5 个答案:

答案 0 :(得分:30)

尝试使用pandoc

pandoc -f html -t docx -o output.docx input.html
  

如果未明确指定输入或输出格式,pandoc将尝试从输入和输出文件名的扩展名中猜出它。
   - pandoc手册

所以你甚至可以使用

pandoc -o output.docx input.html

答案 1 :(得分:5)

刚刚在你的php页面的头上。在此之前的任何代码应该是顶级代码。

<?php
header("Content-Type: application/vnd.ms-word"); 
header("Expires: 0"); 
header("Cache-Control: must-revalidate, post-check=0, pre-check=0"); 
header("content-disposition: attachment;filename=Hawala.doc");

?>

这会将所有html转换为MSWORD,现在您可以根据客户要求自定义它。

答案 2 :(得分:4)

一个不错的选择是使用像Docverter这样的API。 Docverter允许您使用API​​将HTML转换为PDF或DOCX。

答案 3 :(得分:4)

这样做时我发现最容易:

  1. 在网络浏览器中访问该页面
  2. 使用扩展名为.htm的网络浏览器(可能是包含支持文件的文件夹)保存页面
  3. 启动Word并打开已保存的htm文件(Word将正确打开)
  4. 根据需要进行任何编辑
  5. 选择另存为,然后选择您希望doc,docx等扩展名

答案 4 :(得分:1)

将文件重命名为.doc .....

的其他替代方案

http://msdn.microsoft.com/en-us/library/microsoft.office.interop.word(office.11).aspx

这是一个很好的起点。您也可以尝试使用此Office Open XML。

http://www.ecma-international.org/publications/standards/Ecma-376.htm