Keen.io计算有限的数据集

时间:2018-01-29 20:46:06

标签: analytics keen-io

所以,我已经开始为keen.io写一些关于大约170,000个事件的数据集的基本计算查询,每个事件最多可能有10个属性。

刚刚测试了这一点,我们已经查询了大约6亿个查询的属性,即使大多数查询都是针对我自己的本地数据而只存储了少量事件,所以我猜测计算查询正在运行所有170k事件,而不是50-100过滤结果集。

有没有办法在过滤的数据集上运行计算查询?我应该(例如)为每个用户分配他们自己的event_collection或什么?

1 个答案:

答案 0 :(得分:0)

注意:我是Keen IO的平台工程师和架构师。

简短的回答是:不,除了减少收集中的事件数量和被查询的时间范围外,没有直接的方法可以过滤掉您要收取费用的事件。

基于properties scanned的敏锐账单。您可以点击链接了解详细信息,但简短版本是: Properties Scanned = [# of events matching collection and timeframe] * [# of properties needed to evaluate your query]`.

在某些情况下,将事件拆分为不同的集合实际上可能是一种合理的解决方案。但要小心,因为这样做有效地消除了评估跨越多个/所有集合的查询的能力。如果您愿意双重写入每个事件,一种选择是写入一个全局集合和一个每个ID集合(或任何您想要的"索引" on)。这种非规范化可能会产生一些其他复杂性,因为非规范化总是如此,但它确实有可能大大降低您的计算使用率。

(对于它的价值,这是一个摩擦点,我们已经注意到许多客户最近开始遇到。我们正在积极寻找为&#添加某种原生支持的选项34;二级索引"直接在产品中解决这个问题。但不幸的是,我现在无法承诺任何特定的功能/时间表。)

另外需要指出的是,在某些情况下,您可以使用Keen的Cached Datasets功能获得一个好的解决方案,该功能可以有效地预先计算每个观察值的查询结果。索引属性。这是一个更高级的功能,但在正确的情况下,它在成本,速度和简单性方面可以比其他选项有显着改进。

最后:如果您需要更详细的帮助来找出解决问题的最佳技术方法,team @ keen.io是一个很好的资源。希望有所帮助!