应用错误收集

在我的大学课程中，我必须设置一个“大数据”项目。为此，我从API收集数据并将其写入文件，每个新数据集都会附加到该文件中。一个卡夫卡制作人收集了这些数据，我设置了水槽将其写入HDFS。效果很好，但我得到了我不想要的信息

{"schema":{"type":"string","optional":false},"payload":"reak - Scan|9926110|1497381796|Roku Stick - A7171G046923|episode|97|1497386716"}

我只想要有效负载，因为我想将该数据集导入到蜂巢中。同样，当前它为每个新行创建一个新文件。是否可以在hdfs上拥有一个文件，每当有新条目进入时，文件都会扩展？

感谢您的帮助！