标签: flume
我使用Flume从Kafka接收访问日志并写入按时间划分的HDFS目录。据我所知,这里的“时间”是“处理时间”,我希望按“事件时间”进行分区。
例如,如下所示的日志应划分为dt=20170627,即使它是在20170628年末收到的:
dt=20170627
0.123 [2017-06-27 09:08:00] GET / 0.234 [2017-06-27 09:08:01] GET /
我知道Hive sink可以通过从记录中提取的字段进行分区,但它需要记录分隔或以json格式。
感谢。