德鲁伊 - 流数据摄取 - 连续聚合

时间:2018-05-30 18:14:35

标签: stream druid

我正在考虑使用德鲁伊进行聚合。我的用例是我想将数据流式传输到德鲁伊(这是同一天,将segmentGranularity设置为DAY),并且在摄取时间我想要聚合数据。

我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入Druid。现在,当我向德鲁伊发送另一个数据流(这与已经卷起的数据有关)时,德鲁伊如何处理它。

德鲁伊是否更新了汇总数据,或者只是将此数据附加到现有的汇总数据?

2 个答案:

答案 0 :(得分:0)

德鲁伊适用于2种类型的摄取 - 流式摄取和批量文件摄取。对于流式摄取,它通过Tranquality服务器或Firehose连接到kafka(push vs pull)完成。 -

  

对于流数据,汇总聚合将附加到   以前的数据。

对于批量摄取 - 德鲁伊重新摄取给定时间段或段的整个数据。

对于您的用例(每日),如果您没有重复数据问题(即,同样的数据流可能会再次出现)您可以进行流式摄取,否则更可取的是在指定的时间间隔完成批量摄取,例如。每小时。

答案 1 :(得分:0)

感谢您的评论。我能够让德鲁伊使用流式摄取和聚合。

我发现当数据再次流式传输时,数据聚合会更新。

由于