我正在考虑使用德鲁伊进行聚合。我的用例是我想将数据流式传输到德鲁伊(这是同一天,将segmentGranularity设置为DAY),并且在摄取时间我想要聚合数据。
我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入Druid。现在,当我向德鲁伊发送另一个数据流(这与已经卷起的数据有关)时,德鲁伊如何处理它。
德鲁伊是否更新了汇总数据,或者只是将此数据附加到现有的汇总数据?
答案 0 :(得分:0)
德鲁伊适用于2种类型的摄取 - 流式摄取和批量文件摄取。对于流式摄取,它通过Tranquality服务器或Firehose连接到kafka(push vs pull)完成。 -
对于流数据,汇总聚合将附加到 以前的数据。
对于批量摄取 - 德鲁伊重新摄取给定时间段或段的整个数据。
对于您的用例(每日),如果您没有重复数据问题(即,同样的数据流可能会再次出现)您可以进行流式摄取,否则更可取的是在指定的时间间隔完成批量摄取,例如。每小时。
答案 1 :(得分:0)
感谢您的评论。我能够让德鲁伊使用流式摄取和聚合。
我发现当数据再次流式传输时,数据聚合会更新。
由于