从HDFS文件中读取数据并将其发送给kafka生产者

时间:2019-04-04 18:18:36

标签: hadoop apache-kafka hdfs kafka-producer-api

我在HDFS中有一组文件,这些文件是tweet。我需要通过kafka生产者流式传输这些推文。稍后,我需要处理流并对其进行一些分析。

我所做的是:

a)编写一个Java程序以从HDFS逐行读取文件。

b)我可以使用kafka从Java程序将此消息发布到某个主题。

但是,这是一个非常慢的方法。而且数据量很大。

我查看了一些mapreduce作业,可以将数据馈送到kafka生产者,我对此并不陌生,也不十分确定该怎么做。

这是我在说的: https://my-bigdata-blog.blogspot.com/2017/07/hadoop-custom-outputformat-hdfs-send-to-kafka.html

0 个答案:

没有答案