如何上传docx,xl​​sx& txt文件到Marklogic Server?

时间:2012-06-28 12:43:57

标签: xquery marklogic

我有一个包含doc,docx,xl​​sx,pdf和txt文件的文件夹。我使用这个XQuery将所有这些文件上传到Marklogic: -

for $d in xdmp:filesystem-directory("C:\uploads")//dir:entry
return 
  xdmp:document-load($d//dir:pathname,
    <options xmlns="xdmp:document-load">
    <uri>{concat("/documents/", string($d//dir:filename))}</uri>
    <permissions>{xdmp:default-permissions()}</permissions>
    <collections>{xdmp:default-collections()}</collections>
    <format>binary</format>
    </options>)

我还为我的数据库安装了内容处理。现在,当我上传doc和pdf文件时,它们会被转换为xml&amp; xhtml文件。但是docx,xl​​sx和&amp; txt不会被转换。有人可以告诉我为什么这些文件没有被转换?

1 个答案:

答案 0 :(得分:5)

启用Office OpenXML Extract管道以转换.docx,.xlsx和.pptx文件。

具有这些扩展名的文件已经是XML。如果要将其扩展名更改为.zip,则可以提取并查看文件仅由相互关联的XML部分组成。

Office OpenXML Extract管道将解压缩Office 2007/2010文件,并将其必需部分存储在主文件的同级目录中,类似于其他转换管道。此管道允许您存储原始Open XML。目前没有进一步转换为DocBook的XHTML。

我知道没有.txt的转换。这些只是文本文件,将作为文本插入MarkLogic。您可以通过简单地将文本包装在父元素中并将文件扩展名更改为.xml来转换为XML。

希望这有帮助。