通用文档格式转换器

时间:2009-01-12 12:10:56

标签: java html pdf ms-word converter

我希望将任何格式转换为HTML或从HTML转换。

我想支持DOC,DOCX,PDF,ODT,RDF,DocBook和TXT。

我发现了许多格式到格式的转换实用程序,但为了方便实现,最好使用单个工具。随着供应商或开源项目扩展库,这也将使添加新格式变得更加容易。

理想的“集线器”格式是HTML,但我也可以使用其他集线器格式。

要运行服务器端,最好是Java库,或者C / C ++库,COM或命令行工具;但不是打印机驱动程序,在线服务或GUI工具。商业和开源都没关系。

4 个答案:

答案 0 :(得分:10)

OpenOffice.org

从此link

  

OpenOffice.org不太出名的功能之一是它作为服务运行的能力。你可以将这种能力用于一些巧妙的用途。例如,您可以将OpenOffice.og转换为转换引擎,并使用它通过基于Web的界面或命令行工具将文档从一种格式转换为另一种格式。 JODConverter可以帮助您释放OpenOffice.org的文件转换功能。

这听起来像你在找什么。它也都在Java中。

此链接会告诉您有关上述JODConverter的更多信息。

答案 1 :(得分:1)

我不相信这样的效用/转换器已经存在,因为合理地进行某些转换相当困难。例如,您将如何处理HTML到TXT到HTML的转换?你会剥夺什么?你会如何用纯文本表示不同的HTML元素?此外,您将如何处理内容中的内容,如TXT中的XML转换为DOCX然后转换为XHTML?

那就是说,如果我要为这种目的制作转换器,我会从Apache POI开始,这是一个用于处理Office文档的库。然后我使用iText进行PDF连接,确保[Office格式]< - > PDF转换可以像我希望的那样工作,然后为XML处理添加JDOM,测试[Office格式]< - > XML和PDF< - > XML会像我想要的那样工作,依此类推,你可以得到图片。我会特别避免自己实现文件类型处理程序,因为我很可能在那时重新发明轮子。

答案 2 :(得分:1)

这是一个非常重要的问题。例如,我上个月一直looking for a robust HTML+CSS to PDF conversion in PHP并且尽管我已经发现(从那个问题)Prince XML,我的初步测试已经显示,但我只能设法让一个工作可靠但速度非常慢(html2pdf)成为一个sperb产品。但它很贵。

答案 3 :(得分:1)

查看Freemarker

我建议将XML作为“中心”格式,然后将样式信息分离到XSLT中。