我一直在研究流数据的聚合,我找到了两种工具来实现相同的目标。他们是德鲁伊和管道。我已经理解了两者的实现和架构。但无法找到对这两者进行基准测试的方法。是否已经完成了现有的基准测试?或者,除了速度和可扩展性之外,如果我想对自己进行基准测试,那么我需要考虑的因素是什么。任何想法,链接和帮助都会非常明显。同时与pipelinedb和druid分享您自己的经验
谢谢
答案 0 :(得分:0)
UPD:
在阅读了PipelineDB页面之后,我只想知道为什么你需要比较这些不同的东西?
德鲁伊的安装和维护非常复杂,它需要几个外部依赖(例如zookeeper和hdfs / amazon,它们也必须维护)。
以这个价格购买德鲁伊的主要功能:面向列和分布式存储和处理。这也意味着水平的scalabitily开箱即用,它是完全自动的,你甚至没有考虑它。
所以如果你不需要它的分布式性质,我会说你根本不需要德鲁伊。
第一版:
我没有使用pipelinedb的经验(这是什么?谷歌没有显示任何内容,请分享一些链接),但我对德鲁伊有很多经验。所以我会考虑(除了[查询]速度和可伸缩性):