将Marklogic 8.0.6的数据提取到AWS S3

时间:2017-01-20 16:51:12

标签: amazon-s3 marklogic marklogic-8

我正在使用Marklogic 8.0.6,我们也有JSON文档。我需要从Marklogic中提取大量数据并将它们存储在AWS S3中。我们尝试在本地运行“mlcp”,然后将数据上传到AWS S3,但速度非常慢,因为它会生成大量文件。

我们的Marklogic平台已连接到S3以执行备份。有没有办法在aws s3中提取特定的数据库?

如果我有一个包含每行一个JSON文档的大文件

,对我来说没问题

谢谢, 罗曼。

3 个答案:

答案 0 :(得分:3)

我不知道如何将其发送到s3,但您可以使用CORB2将MarkLogic文档提取到一个大文件,每行一个JSON文档。

答案 1 :(得分:1)

S3://是MarkLogic中的本机文件类型。因此,您还可以遍历所有文档并使用xdmp导出它们:save(" s3:// ...)。

如果您想制作agrigates,那么您可能希望将此想法与Sam的CORB2建议结合起来,以控制流程并协助将整个数据库分组为多个可管理的聚合文档。然后使用post-back任务运行xdmp-save

答案 2 :(得分:0)

谢谢你的回答。我不知道CORB2,这是一个很好的解决方案!但不幸的是,由于I / O不好,我更喜欢直接在s3上编写解决方案。

我可以使用基本的Ml查询并使用本机连接器转储到s3://但是我总是面临内存错误,甚至使用" spawn"用于生成后台进程的函数。

你是否有任何xquey示例在没有内存许可的情况下逐个提取s3上的每个文档?

由于