Hadoop批量提取

时间:2019-06-04 06:55:56

标签: hadoop hdfs druid

我们在hdfs集群中存储和更新了原始数据,我们希望将原始数据输入到druid集群中以进行分析。

hdfs中的原始数据存储在druid期望的正确路径结构中。要从hdfs提取数据,我们可以在一定时间间隔后简单地进行批处理摄取,假设我们每小时进行一次批处理摄取,我们可以每小时简单地进行一次批处理hadoop摄取任务-将间隔设置为当前小时,但是问题是由于事件延迟而引起的,有可能在当前时间段内,也可以将前一个小时的任何数据添加到hdfs中,现在,以当前时间段为间隔的简单hdfs批处理接收将无法正常工作。

德鲁伊中是否提供了允许从hdfs进行这种摄取的机制?

0 个答案:

没有答案