我在HDFS中有一组文件,这些文件是tweet。我需要通过kafka生产者流式传输这些推文。稍后,我需要处理流并对其进行一些分析。
我所做的是:
a)编写一个Java程序以从HDFS逐行读取文件。
b)我可以使用kafka从Java程序将此消息发布到某个主题。
但是,这是一个非常慢的方法。而且数据量很大。
我查看了一些mapreduce作业,可以将数据馈送到kafka生产者,我对此并不陌生,也不十分确定该怎么做。
这是我在说的: https://my-bigdata-blog.blogspot.com/2017/07/hadoop-custom-outputformat-hdfs-send-to-kafka.html