在Linux上将MSword转换为XML / HTML

时间:2013-04-09 22:57:52

标签: java python linux perl apache-tika

我需要将MSWord文件转换为XML或HTML,同时保留文件的结构(主要是表格)。我碰巧找到了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存为html / XML,如下所示:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像用HTML编写的纯文本,因此无法获取表结构和其他文档元素。

在Perl或Python中是否有Tika的实现,可以将文档转换为XML / HTML,同时保留其元素的结构?或者Linux上有没有其他工具可以做到这一点?

1 个答案:

答案 0 :(得分:1)

安装OpenOffice SDK,它为各种文档(包括转换)提供功能强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242