任何人都可以告诉我们可以使用copy命令在cassandra中高效加载的csv文件的最大大小(行数或文件大小)。它有限制吗?如果是这样的话,最好将大小文件分解成多个文件并加载,或者我们有更好的选择吗?非常感谢。
答案 0 :(得分:1)
我之前遇到过这个问题...至少对我来说,在max size的任何datastax或apache文档中都没有明确的声明。基本上,它可能仅限于您的pc /服务器/群集资源(例如cpu和内存)。
然而,在jgong发现here的一篇文章中,声明可以导入最多10MB。对我来说这大约是8.5MB。在cassandra 1.2 here的文档中,它声明您可以导入几百万行,并且您应该使用bulk-loader来处理更重的内容。
总而言之,我建议通过多个csv文件进行导入(只是不要让它们太小,以便不断打开/关闭文件),以便您可以处理导入的数据并更容易发现错误。可能会发生等待一个小时的文件加载它失败并重新开始,而如果你有多个文件,你不需要重新开始已经成功导入的文件。更不用说密钥重复错误了。
答案 1 :(得分:1)