用于网络分析的Cassandra数据模型方法

时间:2014-02-25 02:37:56

标签: cassandra data-modeling

我最近开始为我们的项目探索Cassandra。我怀疑与Cassandra数据建模有关。让我们举一个谷歌网站分析产品的例子。 Google会使用不同的时间范围收集/汇总有关不同维度的网址统计信息。让我们举一个简单的例子,从桌面浏览器和移动浏览器收集www.yahoo.com的访问次数,为期30天(每日总和)。我们可以用两种方式对此进行建模 -

同一网址的每种浏览器类型的一行键,以及具有聚合计数器列类型的列名称的每一行 one row key for each browser

url和复合键的一个通用行键,包含具有聚合计数器列类型的day,url和browser类型 composite column key

每种方法的利弊是什么?

1 个答案:

答案 0 :(得分:2)

列名的长名称不是一个好主意,因为它们将在每一行中重复存储。 您应该使用date,url,platform,day作为主键,并使用一列进行计数。这样,如果您需要一个月中的所有日期,请指定日期,网址,平台。