在POC中,我们使用cassandra存储(除此之外)Apache访问日志(已解析)并与apache spark + zeppelin一起使用。我们设法使事情有效但我们对如何正确建模数据非常不确定。
修改:我们的查询将持续数月和数年,而不是数周和数天。反对生产工作可能每天(至少目前)执行,我们将在开发过程中使用较小的数据集。
由于这只会用于分析,因此查询几乎可以是任何内容,但我们当然可以提前考虑一些查询。
I.e
分区键+主键。这真的很难......我唯一能想到的就是((userid,[webresource]),timestamp)。 至少这会给出相当均匀的分布。否则我们将不得不使用校验和或感觉不对的东西。
或者我应该为不同的类型设置不同的表,例如延迟,地理位置等?或者这是物化视图的好选择吗?
我搜索过这样的东西没有任何运气,所以也许cassandra对于这个仍然是一个糟糕的解决方案,我们真的希望看到我们能走多远。
无论如何,任何意见都非常感谢!
问候/约翰