将pdf,doc,ppt转换为html5

时间:2010-07-07 23:28:34

标签: html5 scribd document-conversion

我用open source software that can convert doc, ppt, and pdf to HTML5.搜索(没有任何运气)(正是Scribd所做的)Scribd的转换类型是否有开源等价物?

如果有人知道付费服务,那也行。 Scribd有API,但这适用于flash查看器。此外,我希望托管我自己的内容,因为我需要进一步控制已转换的HTML文档

6 个答案:

答案 0 :(得分:15)

您不太可能找到能够完成所有这些工作的单一产品,尤其是在开源世界中。你最终可能会依赖混杂的东西,甚至可能需要链接一些转换器才能获得HTML。 (例如PDF - > ps - > HTML)

OpenOffice支持转换为HTML,可以从命令行调用。

http://pdftohtml.sourceforge.net/看起来相当擅长将pdf转换为html。

对于Word ML或OpenXML格式的Doc,可以想象您可以使用XSLT转换,因为输入和输出格式都是XML。我已经看到一些漂浮在网上的样式表,但YMMV。

顺便说一下,为什么对开源有特定要求? MS Powerpoint已经支持以HTML格式保存。

答案 1 :(得分:5)

Open Office会将pdf转换为html,但你会受到设计质量的影响。

我建议:Crocodoc作为付费服务(它为不同的平台提供不同的风格,例如 Python,Ruby,Java,PHP 允许开发人员使用他们的API。)或等待正式的Adobe工具(它正在开发中)。

答案 2 :(得分:3)

对于PDF到HTML的转换,pdf2htmlEX似乎是一个非常好的工具(查看所有示例/示例):

https://github.com/coolwanglu/pdf2htmlEX

答案 3 :(得分:1)

http://wvware.sourceforge.net/

  

wvHtml:转换您的Word文档   进入HTML4.0。

可能: http://www.abisource.com/ 但在这种情况下,它看起来像“打开文档”>手动“导出html”,也许是插件帮助。不确定,你是什么意思:“可以转换的源软件。”

或者这个: http://www.zope.org/Members/sf/NuxDocument

pdftohtml也会给你一个html页面输出。但是你必须处理它的图形界面。因为它似乎不是很互动。

答案 4 :(得分:1)

对于pdf,有一个由mozilla启动的开源项目非常好:https://github.com/mozilla/pdf.js/

您可以看到一个hello world示例:https://github.com/mozilla/pdf.js/tree/master/examples/helloworld

对于其余的文档类型,我认为LibreOffice说计划用html5构建一些东西,但到目前为止还没有完成任何事情。

答案 5 :(得分:-1)

我知道这个问题有点老了但是我找到了一个名为flaxpaper的新开源工具http://flexpaper.devaldi.com/