是否存在将任何通用文档类型转换为HTML的库/项目

时间:2010-11-02 07:10:46

标签: apache unix document converter file-type

是否有任何项目试图为不同的文件类型构建转换器 - > HTML或文本。文件格式是最常见的格式;它们包括PDF,DOC(X),XLS(X),PPT(X),PS等。我已经知道一些Unix实用程序,如pdftotext。另外,我知道Apache的Tika和POI项目。有没有通用接口?像MultiMarkdown

这样的东西

1 个答案:

答案 0 :(得分:0)

就像你说的,类UNIX系统的哲学是使用小实用程序/过滤器来做到这一点(latex2html,t2html,txt2html,pdftohtml等)。您可以使用shell脚本,perl,python等创建自己的接口,并将这些过滤器用作回调。