在我的大学课程中,我必须设置一个“大数据”项目。为此,我从API收集数据并将其写入文件,每个新数据集都会附加到该文件中。一个卡夫卡制作人收集了这些数据,我设置了水槽将其写入HDFS。效果很好,但我得到了我不想要的信息
{"schema":{"type":"string","optional":false},"payload":"reak - Scan|9926110|1497381796|Roku Stick - A7171G046923|episode|97|1497386716"}
我只想要有效负载,因为我想将该数据集导入到蜂巢中。同样,当前它为每个新行创建一个新文件。是否可以在hdfs上拥有一个文件,每当有新条目进入时,文件都会扩展?
感谢您的帮助!