任何人都可以让我知道如何以最快的方式加载批量数据,大约相当于30 TB的Marklogic。 Markstudio或mclp仍然是生产环境中的一个选项。其他人如何将大数据加载到Marklogic。
答案 0 :(得分:3)
MLCP原则上应该可以使用,但您可能希望缩小事务大小。虽然30 TB很多,但请确保您拥有为这样大小做好准备的MarkLogic群集,并且有一定的耐心。先用几个小(呃)套装进行一些测试..
答案 1 :(得分:1)
在进行大量数据加载时,客户端向群集注入足够数据的能力通常是瓶颈。即使在多核主机上有多个线程,您仍然会竞争资源。如果您碰巧拥有HDFS集群或其他共享存储,我们发现您可以通过将数据暂存到HDFS并运行直接从数据节点写入MarkLogic D节点的分布式mlcp作业来获得更好的并行化。