Cassandra表的分区键?
在customer表中,customerid是分区键吗?
假设我一年有100万客户,所以我有100万个分区
10年后,我有1000万或更多客户......所以我有1000万个分区
我的问题是什么? 1)如果我想读取客户表(1000万分区)是否会影响读取性能?
注意:在单个分区中,我们可能有50到100列?
答案 0 :(得分:2)
您有正确的想法,因为您希望使用数据建模来创建多租户环境。需要注意的是,您不希望在Cassandra中执行全表/多分区扫描来检索该数据。关于为什么会有很好的记录,但是只要你有一个高度分散的环境,你就会想要最大限度地减少网络跳数,数据改组等等。不能对抗物理问题:)
无论如何,听起来这是报告用例的类型 - 你需要使用像Spark或某种类型的地图这样的东西并减少以有效地报告像这样的多个分区。