我用open source software that can convert doc, ppt, and pdf to HTML5.
搜索(没有任何运气)(正是Scribd所做的)Scribd的转换类型是否有开源等价物?
如果有人知道付费服务,那也行。 Scribd有API,但这适用于flash查看器。此外,我希望托管我自己的内容,因为我需要进一步控制已转换的HTML文档。
答案 0 :(得分:15)
您不太可能找到能够完成所有这些工作的单一产品,尤其是在开源世界中。你最终可能会依赖混杂的东西,甚至可能需要链接一些转换器才能获得HTML。 (例如PDF - > ps - > HTML)
OpenOffice支持转换为HTML,可以从命令行调用。
http://pdftohtml.sourceforge.net/看起来相当擅长将pdf转换为html。
对于Word ML或OpenXML格式的Doc,可以想象您可以使用XSLT转换,因为输入和输出格式都是XML。我已经看到一些漂浮在网上的样式表,但YMMV。
顺便说一下,为什么对开源有特定要求? MS Powerpoint已经支持以HTML格式保存。
答案 1 :(得分:5)
Open Office会将pdf转换为html,但你会受到设计质量的影响。
我建议:Crocodoc作为付费服务(它为不同的平台提供不同的风格,例如 Python,Ruby,Java,PHP 允许开发人员使用他们的API。)或等待正式的Adobe工具(它正在开发中)。
答案 2 :(得分:3)
对于PDF到HTML的转换,pdf2htmlEX似乎是一个非常好的工具(查看所有示例/示例):
答案 3 :(得分:1)
http://wvware.sourceforge.net/
wvHtml:转换您的Word文档 进入HTML4.0。
可能: http://www.abisource.com/ 但在这种情况下,它看起来像“打开文档”>手动“导出html”,也许是插件帮助。不确定,你是什么意思:“可以转换的源软件。”
或者这个: http://www.zope.org/Members/sf/NuxDocument
pdftohtml也会给你一个html页面输出。但是你必须处理它的图形界面。因为它似乎不是很互动。
答案 4 :(得分:1)
对于pdf,有一个由mozilla启动的开源项目非常好:https://github.com/mozilla/pdf.js/
您可以看到一个hello world示例:https://github.com/mozilla/pdf.js/tree/master/examples/helloworld
对于其余的文档类型,我认为LibreOffice说计划用html5构建一些东西,但到目前为止还没有完成任何事情。
答案 5 :(得分:-1)
我知道这个问题有点老了但是我找到了一个名为flaxpaper的新开源工具http://flexpaper.devaldi.com/