我们有两种类型的日志:
1)会话日志:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME
2)EVENT LOG:SESSION_ID,DATE_TIME,X,Y,Z
我们只需要存储事件日志,但是希望将SESSION_ID替换为其对应的USER_ID。我们应该使用哪些技术(即Flume?)将数据存储在HDFS中?
谢谢!
答案 0 :(得分:0)
是Flume可用于将日志文件移动到HDFS。
要用USER_ID替换SESSION_ID,您可以:
使用Shell脚本执行此操作 - 并生成“已修改的事件日志文件” - 这就是Flume将选择的内容。这将是最简单的方法。