要插入大量数据,大约200万行。 Cassandra本身并不是真正的瓶颈 - 在插入数据之前会有一些相关的繁重计算,因此MR分布模型会很棒。换句话说,在多个节点之间拆分计算然后在一个地方收集数据会很好 - 将其上传到将存储所有数据的单个节点,并关闭其他(不再使用的)节点。
类似的东西:
node1 - processes data chunk1
node2 - processes data chunk2
nodeN - processes data chunkN
...
[result] all the chunks are collected together and merged into single big dataset
如何做到这一点并节省时间?我考虑过每个节点编写二进制SSTable文件,然后简单地将它们上传到主实例(是的,听起来太简单,但谁知道?..)那么 - 有什么方法可以做到这一点?或者 - 如果不是 - 什么是最好的'传统'这样做的方法? SSD,RAID,具有多个节点的集群?
谢谢!