我使用DataStax网站提供的批量加载示例生成Cassandra SSTables。 http://www.datastax.com/dev/blog/bulk-loading
我的问题是SSTable文件理想地消耗了多少磁盘空间?在我的情况下,我的数据CSV文件为40 GB,SStables为此特定文件消耗的总磁盘空间大约为 250GB 。在创建这些表时是否有一些我遗漏的东西?是否有可用于生成sstables的压缩选项?
我使用sstableloader加载sstables的第二步非常正常,数据可用于在CQL中查询。
此外,我想知道除了上面提到的bulkload方法之外是否还有其他可用于将大数据导入cassandra的技术。
答案 0 :(得分:0)
首先检查压缩是否启用。怎么检查?
如果sstable被压缩,它将具有 CompressionInfo.db 组件(即组成sstable的文件之一,以end结尾) --CompressionInfo.db)。如果没有这样的文件,那么它就没有 压缩。
有关进一步压缩的相关信息,请check this。
转到上一个问题还有其他替代bulkload方法,使用 COPY 命令。见documentation