我刚做了一个实验,其中我加载了大约十几个csv文件,重约5.2 GB(压缩)。将它们上传到Cassandra后,它们占用了64 GB! (实际上大约128 GB,但这是由于复制因子为2)。
坦率地说,我预计Cassandra的数据甚至会低于最初的5.2 GB csv,因为: 1. Cassandra应该能够以二进制格式而不是ascii存储数据(主要是数字) 2. Cassandra应该将单个文件拆分为其列组成部分并显着改善压缩
我是Cassandra的新手,这是一个实验。我完全有可能误解产品或错误配置产品。
预计5.2 GB csvs最终会成为64 GB的cassandra文件吗?
编辑:其他信息:
[cqlsh 5.0.1 | Cassandra 2.1.11 | CQL spec 3.2.1 | Native protocol v3]
[~]$ nodetool status
Datacenter: DC1
===============
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns Host ID Rack
UN xx.x.xx.xx1 13.17 GB 256 ? HOSTID RAC1
UN xx.x.xx.xx2 14.02 GB 256 ? HOSTID RAC1
UN xx.x.xx.xx3 13.09 GB 256 ? HOSTID RAC1
UN xx.x.xx.xx4 12.32 GB 256 ? HOSTID RAC1
UN xx.x.xx.xx5 12.84 GB 256 ? HOSTID RAC1
UN xx.x.xx.xx6 12.66 GB 256 ? HOSTID RAC1
du -h [director which contains sstables before they are loaded]: 67GB