Cassandra SSTables生成内存消耗/可用压缩?

时间:2013-05-15 18:32:33

标签: cassandra bulk-load

我使用DataStax网站提供的批量加载示例生成Cassandra SSTables。 http://www.datastax.com/dev/blog/bulk-loading

我的问题是SSTable文件理想地消耗了多少磁盘空间?在我的情况下,我的数据CSV文件为40 GB,SStables为此特定文件消耗的总磁盘空间大约为 250GB 。在创建这些表时是否有一些我遗漏的东西?是否有可用于生成sstables的压缩选项?

我使用sstableloader加载sstables的第二步非常正常,数据可用于在CQL中查询。

此外,我想知道除了上面提到的bulkload方法之外是否还有其他可用于将大数据导入cassandra的技术。

1 个答案:

答案 0 :(得分:0)

首先检查压缩是否启用。怎么检查?

如果sstable被压缩,它将具有 CompressionInfo.db 组件(即组成sstable的文件之一,以end结尾) --CompressionInfo.db)。如果没有这样的文件,那么它就没有 压缩。

有关进一步压缩的相关信息,请check this

转到上一个问题还有其他替代bulkload方法,使用 COPY 命令。见documentation