我正在使用从Web应用程序发送的8000万个事件的数据集测试CrateDB,这既是规范化的关系解决方案,也是非规范化的单个数据库解决方案。
我将所有8000万个非规范化事件导入到一个表中,并运行以下聚合查询:
select productName, SUM(elapsed)/60 as total_minutes from denormalized
where country_code = 'NL' AND eventType = 'mediaPlay'
group by productName
order by total_minutes desc
limit 1000;
,查询耗时.009秒。哇! CrateDB飞速发展!
然后,我将整个会话范围的文档导入到一个称为“会话”的表中,并将每个会话中的所有单个事件文档都导入到另一个名为“事件”的表中,并运行以下查询:
select e.productName, SUM(e.elapsed)/60 as total_minutes from sessions s
join events e ON e.sessionGroup = s.sessionGroup
where s.country_code = 'NL' AND e.eventType = 'mediaPlay'
group by e.productName
order by total_minutes desc
limit 1000;
花了21秒。
我的问题是,有没有办法通过创建索引或以某种方式更改查询来获得更快的关系性能?
切线思想: 我们一直在使用Elasticsearch进行分析,显然可以对数据进行非规范化,而且速度很快,但是CrateDB似乎可以提供Elasticsearch所做的一切(对非规范化数据的快速查询,集群,动态模式,全文搜索),以及以下其他优点:< / p>
答案 0 :(得分:0)
您使用的是哪个CrateDB版本?如果它小于3.0,则升级可能会大大提高连接查询的效率,请参见https://crate.io/a/lab-notes-how-we-made-joins-23-thousand-times-faster-part-three/。