标签: cassandra streaming
我正在向Cassandra 2.0中输入非常大的文件,我注意到我对Cassandra的摄取速度比我获取新文件的速度慢了x3。鉴于此,并试图避免内存问题,我有什么选择来跟上摄取?
我最初认为我可以有多个客户端写入,可能每个都写入群集中的不同“种子”节点。如果我小心不能两次访问同一个文件会导致节点I / O出现问题?这样做的最佳方法是什么?根据谷歌搜索,我看到批处理驱动程序语句之类的东西可以提供帮助,但我正在读取需要先清理的CSV文件......