应用错误收集

时间：2017-01-20 16:51:12

标签： amazon-s3 marklogic marklogic-8

我正在使用Marklogic 8.0.6，我们也有JSON文档。我需要从Marklogic中提取大量数据并将它们存储在AWS S3中。我们尝试在本地运行“mlcp”，然后将数据上传到AWS S3，但速度非常慢，因为它会生成大量文件。

我们的Marklogic平台已连接到S3以执行备份。有没有办法在aws s3中提取特定的数据库？

如果我有一个包含每行一个JSON文档的大文件

，对我来说没问题

谢谢，罗曼。

答案 0 :(得分：3)

我不知道如何将其发送到s3，但您可以使用CORB2将MarkLogic文档提取到一个大文件，每行一个JSON文档。

答案 1 :(得分：1)

S3：//是MarkLogic中的本机文件类型。因此，您还可以遍历所有文档并使用xdmp导出它们：save（＆＃34; s3：// ...）。

如果您想制作agrigates，那么您可能希望将此想法与Sam的CORB2建议结合起来，以控制流程并协助将整个数据库分组为多个可管理的聚合文档。然后使用post-back任务运行xdmp-save

答案 2 :(得分：0)

谢谢你的回答。我不知道CORB2，这是一个很好的解决方案！但不幸的是，由于I / O不好，我更喜欢直接在s3上编写解决方案。

我可以使用基本的Ml查询并使用本机连接器转储到s3：//但是我总是面临内存错误，甚至使用＆＃34; spawn＆＃34;用于生成后台进程的函数。

你是否有任何xquey示例在没有内存许可的情况下逐个提取s3上的每个文档？

由于