仅将有效负载写入HDFS

时间:2018-12-10 10:07:27

标签: hadoop apache-kafka flume flume-ng

在我的大学课程中,我必须设置一个“大数据”项目。为此,我从API收集数据并将其写入文件,每个新数据集都会附加到该文件中。一个卡夫卡制作人收集了这些数据,我设置了水槽将其写入HDFS。效果很好,但我得到了我不想要的信息

{"schema":{"type":"string","optional":false},"payload":"reak - Scan|9926110|1497381796|Roku Stick - A7171G046923|episode|97|1497386716"}

我只想要有效负载,因为我想将该数据集导入到蜂巢中。同样,当前它为每个新行创建一个新文件。是否可以在hdfs上拥有一个文件,每当有新条目进入时,文件都会扩展?

感谢您的帮助!

0 个答案:

没有答案