Kafka生产者从本地Linux文件夹中读取

时间:2017-08-07 06:51:52

标签: scala apache-spark apache-kafka real-time kafka-producer-api

我正在写一位卡夫卡制片人 它必须从本地Linux文件夹中读取数据并写入我的主题
有可能做那样的事吗?

这里的代码片段是什么(在Scala中)

商业案例 -

实时数据将以CSV文件的形式写在本地Linux文件夹中 - / data / data01 / pharma / 2017 /

如何将此数据移至我创建的主题?

我的消费者将读取此数据并添加到Spark流数据框以进行处理

2 个答案:

答案 0 :(得分:1)

  

实时数据将写在本地linux文件夹

有许多框架可以让你处理这个

我对Kafka连接的了解

重点是,不要重新发明能够编写不必要(也可能是错误的)代码的风险。

答案 1 :(得分:1)

如果您想阅读单个文件,那么

cat ${file} | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_topic

如果文件是动态创建的,那么您需要监控它们并将其提供给kafka-console-producer.sh

Kafka producer to read data files