Question

我需要将MSWord文件转换为XML或HTML，同时保留文件的结构（主要是表格）。我碰巧找到了tika，它在从MSword文件（和任何文件）中提取文本方面非常强大，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

我可以从选项中选择将输出保存为html / XML，如下所示：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但输出基本上就像用HTML编写的纯文本，因此无法获取表结构和其他文档元素。

在Perl或Python中是否有Tika的实现，可以将文档转换为XML / HTML，同时保留其元素的结构？或者Linux上有没有其他工具可以做到这一点？

Answer 1

安装OpenOffice SDK，它为各种文档（包括转换）提供功能强大的API。