我们有一个表来存储按文件分区的数据。在json中,一个文件是200MB到8GB - 但显然有很多开销。压缩原始数据将大大降低这一点。我摄取了大约35 GB的json数据,只有一个节点获得了超过800 MB的数据。这可能是由于“写热点” - 但我们只写一次并且只读。我们不更新数据。目前,我们每个文件都有一个分区。
通过使用二级索引,我们在数据库中搜索包含特定地理位置(=第一个查询)的分区,然后将此查询的结果用于范围查询找到的分区的时间范围(=第二个查询)。 如果需要,甚至可能是整个文件,但在95%的查询中,只查询分区的块。
我们在6节点集群上的复制因子为2。数据相当均匀分布,每个节点根据nodetool status *tablename*
拥有31,9%至35,7%(有效)数据。
良好的阅读表现对我们至关重要。
我的问题:
答案 0 :(得分:1)