用于apache访问日志的Cassandra数据模型

时间:2018-01-10 21:12:00

标签: apache-spark cassandra

在POC中,我们使用cassandra存储(除此之外)Apache访问日志(已解析)并与apache spark + zeppelin一起使用。我们设法使事情有效但我们对如何正确建模数据非常不确定。

修改:我们的查询将持续数月和数年,而不是数周和数天。反对生产工作可能每天(至少目前)执行,我们将在开发过程中使用较小的数据集。

由于这只会用于分析,因此查询几乎可以是任何内容,但我们当然可以提前考虑一些查询。

I.e

  • 延迟百分位数
  • 地理分布
  • 请求总数
  • 热门休息资源
  • ...... etc

分区键+主键。这真的很难......我唯一能想到的就是((userid,[webresource]),timestamp)。 至少这会给出相当均匀的分布。否则我们将不得不使用校验和或感觉不对的东西。

或者我应该为不同的类型设置不同的表,例如延迟,地理位置等?或者这是物化视图的好选择吗?

我搜索过这样的东西没有任何运气,所以也许cassandra对于这个仍然是一个糟糕的解决方案,我们真的希望看到我们能走多远。

无论如何,任何意见都非常感谢!

问候/约翰

0 个答案:

没有答案