我有一个大型多维数据集,每天有250万个新数据。一周1900万。这些数据是历史数据,没有更新,没有删除,也没有变化。那么这种数据的最佳分区策略是什么?你只能看到一周有很多数据。我每天都要创建一个新的分区来处理新数据并在晚上合并到一个静态的大分区中吗?
答案 0 :(得分:1)
我认为最好的解决方案是使用不同的范围:
在每周结束时,您可以合并每日分区。每个分区有1900万个是好的,但是使用每周一次的分区可能会导致更多的查询和处理时间。
因此,至少在最近的40年(每天7个,每周53个,每年40个),整个测量组的分区少于100个。
不要忘记为每个创建的分区添加切片。
删除不必要的索引(例如,用作属性等的高选择性属性)也可能有助于加快处理时间并减少磁盘空间使用。