将单词(.docx)转换为docbook

时间:2011-06-13 15:23:08

标签: java python linux ms-word docbook

我的任务是找到一种方法将大量的.docx文件转换为docbook 5.目前,我们在openoffice中打开文件并保存到docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将进一步处理到我们的自定义Relax NG模式。因此,这种转换不需要完美无缺。我环顾四周,并将继续调查一些线索,但没有找到任何有用的东西。

查看他们建议的Convert doc/docx to semantic HTML upCast,但这似乎不适合我的需要。

我正在寻找可以从命令行使用的免费软件。我最终想批量处理我们的文件。我已经包含了linux,python和java标签,这些是我最舒服的环境,但愿意为正确的解决方案而努力。在我出去重新发明轮子之前,我正在尝试做一些研究。

3 个答案:

答案 0 :(得分:7)

有几种方法可以使用OpenOffice中的外部脚本和脚本来编写脚本。有关示例,请参阅以下链接:

上面的一些链接没有使用Java或Python,但原则仍然适用,脚本通常很短,可以移植(第一个例子是Ruby,但由于简单,这是我个人的最爱) )。

答案 1 :(得分:4)

冒着从SX获得考古学家徽章的风险,答案应包括对Pandoc的引用。这不依赖于开放式办公室。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx

答案 2 :(得分:3)

您可以在服务器模式下运行openoffice并将文档提供给它,而无需手动打开每个文档。

一种方式: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer