使用CPF将word和ppt转换为xml的Action模块

时间:2016-05-04 10:35:01

标签: marklogic marklogic-8

有没有办法可以使用CPF的管道功能将MS-Word和powerpoint数据和元数据转换成xml ..?

提前致谢

2 个答案:

答案 0 :(得分:5)

已经有管道来处理MS Office的压缩XML格式。附加管道" Office OpenXML Extract"和#34; WordprocessingML过程"到你的域名。您不会从二进制(.doc)MS Word文档中获得完全上传到DocBook的内容,但我们会稍微整理一下XML,您可以将自己的转换添加到最后。

答案 1 :(得分:3)

简短的回答是,您可以转换为XML。

答案越长,取决于版本。通过word 2007的任何版本都已采用XML格式。它只是压缩并且包含serval XML文档。 PowerPoint也是如此。该XML的格式可能很棘手,您很可能希望将其转换为更清晰的版本。

最新版本的word也有一个新架构,因此XML的格式会有所不同。

你可以先看看xdmp:word-convert会给你什么。如果这不能很好地运作,您可以使用xdmp:zip-get编写自己的代码。由于word文件的自身是一个zip文件,你可以调用它并学习docx的组合方式并决定它应该如何被转换。

为了使用CPF,您必须编写自己的操作模块并配置CPF管道以使其具有步骤。