需要一种简单的方法来在html中显示word文档

时间:2011-03-21 22:40:50

标签: c++ python c ms-word

我正在收到一堆.docs通过电子邮件发送给我,我正在编写一个python脚本来提取正文和任何.doc或.pdf以及他们可能发送的任何消息,具体取决于答案。做更多,然后我想将它发送到我的网络服务器并有一个PHP脚本格式显示它。

我想在家用电脑上进行任何转换,因为我没有对Web服务器的shell访问权限,并且php是我(有点)知道的唯一支持的语言。在桌面上我开放了python,C和C ++,所有这些我都知道并且更适合这项工作。如果可能的话,我真的想保留格式化,并且我不想尝试制作一个大项目,所以如果它太复杂我总是可以上传.doc并在本地打开它。

4 个答案:

答案 0 :(得分:2)

有各种Word to HTML转换器 - 商业和开源转换器。最常见的转换器(开源)可能是“wv”。您也可以使用Open-Office,例如使用PyUNO桥(需要运行OpenOffice服务器)。如果您使用的是Windows,则可以使用已安装的Office安装重新使用各种商业解决方案。一般情况下:Google自己根据您的需求和要求选择转换器。

答案 1 :(得分:2)

利用Google将所有内容转换为HTML的能力:http://docs.google.com/viewer?pli=1他们甚至还包含一个关于如何在该页面上使用它的微型API指南。

答案 2 :(得分:1)

您可以使用我们的Doc To HTML Converter执行此任务。此应用程序安装在您的PC上,并以批处理模式一次转换许多输入的MS Word文档,使用MS Word访问其原始内容。该程序虽然没有使用内置于MS Word中的(X)HTML生成引擎,但它使用自己的实现,为生成紧凑的清洁代码而量身定制。它也不需要访问Internet来完成这项工作。

答案 3 :(得分:0)

使用antiword进行MS Word内容提取。

http://www.winfield.demon.nl/

您可以选择XML输出格式以保留基本格式。然后,您可以使用XSLT进行HTML格式化。