我需要将MSWord文件转换为XML或HTML,同时保留文件的结构(主要是表格)。我碰巧找到了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
我可以从选项中选择将输出保存为html / XML,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html
但输出基本上就像用HTML编写的纯文本,因此无法获取表结构和其他文档元素。
在Perl或Python中是否有Tika的实现,可以将文档转换为XML / HTML,同时保留其元素的结构?或者Linux上有没有其他工具可以做到这一点?
答案 0 :(得分:1)
安装OpenOffice SDK,它为各种文档(包括转换)提供功能强大的API。