建议使用文件格式转换库

时间:2008-12-22 19:28:11

标签: java html file-format

  • 从多种非图形文档格式转换为HTML格式(例如doc< - > HTML,pdf< - > html,odt< - > html等)
  • 命令行或API(最好是Java API)
  • 跨平台
  • 商业或开源

是否有任何众所周知的解决方案满足/超过这些要求?

3 个答案:

答案 0 :(得分:2)

OpenOffice有一个丰富的API,支持各种支持格式之间的转换。查看this问题。它建议使用JODConverter

答案 1 :(得分:0)

使用DocBook,您可以导出为各种输出格式,但还原总是很难。对于pdf,您可以尝试iText

答案 2 :(得分:0)

我(已经写了一个Tex / LaTeX - > HTML和ASCII文本和RTF转换器), 会说这将是一项艰巨的任务。

问题在于,这些不同的“文档”格式是出于不同目的。 虽然这些格式之间确实有这样的转换工具, “文件”的结构,含义和实施经常存在概念上的差异 并且经常需要权衡一种格式支持的功能来共同攻击 另一个可接受的输出。 例如,PDF在演示,精确定位和支持字体方面非常强大,其中 因为HTML更关注结构,几乎没有对这些事情进行考虑 (没有CSS)。

我很好奇你如何设想使用这样的API, 什么时候通常有人只想要一个转换程序?