应用错误收集

我在HDFS中有一组文件，这些文件是tweet。我需要通过kafka生产者流式传输这些推文。稍后，我需要处理流并对其进行一些分析。

我所做的是：

a）编写一个Java程序以从HDFS逐行读取文件。

b）我可以使用kafka从Java程序将此消息发布到某个主题。

但是，这是一个非常慢的方法。而且数据量很大。

我查看了一些mapreduce作业，可以将数据馈送到kafka生产者，我对此并不陌生，也不十分确定该怎么做。