应用错误收集

比较德鲁伊和pipelinedb

时间：2016-06-18 07:04:01

标签： performance memory aggregate benchmarking scalability

我一直在研究流数据的聚合，我找到了两种工具来实现相同的目标。他们是德鲁伊和管道。我已经理解了两者的实现和架构。但无法找到对这两者进行基准测试的方法。是否已经完成了现有的基准测试？或者，除了速度和可扩展性之外，如果我想对自己进行基准测试，那么我需要考虑的因素是什么。任何想法，链接和帮助都会非常明显。同时与pipelinedb和druid分享您自己的经验

谢谢

1 个答案:

答案 0 :(得分：0)

UPD：

在阅读了PipelineDB页面之后，我只想知道为什么你需要比较这些不同的东西？

德鲁伊的安装和维护非常复杂，它需要几个外部依赖（例如zookeeper和hdfs / amazon，它们也必须维护）。

以这个价格购买德鲁伊的主要功能：面向列和分布式存储和处理。这也意味着水平的scalabitily开箱即用，它是完全自动的，你甚至没有考虑它。

所以如果你不需要它的分布式性质，我会说你根本不需要德鲁伊。

第一版：

我没有使用pipelinedb的经验（这是什么？谷歌没有显示任何内容，请分享一些链接），但我对德鲁伊有很多经验。所以我会考虑（除了[查询]速度和可伸缩性）：

摄取性能（每秒/每小时/每小时/行数...可以插入？）
摄取的RAM消耗量（以目标速度摄取需要多少RAM？）
压缩级别（需要多少磁盘空间小时/天/月/ ...数据？）
容错（某些时候会发生什么组件失败了吗？这对我的生意至关重要？）
缓存（请记住）