我正在写一位卡夫卡制片人
它必须从本地Linux文件夹中读取数据并写入我的主题
有可能做那样的事吗?
这里的代码片段是什么(在Scala中)
商业案例 -
实时数据将以CSV文件的形式写在本地Linux文件夹中 - / data / data01 / pharma / 2017 /
如何将此数据移至我创建的主题?
我的消费者将读取此数据并添加到Spark流数据框以进行处理
答案 0 :(得分:1)
实时数据将写在本地linux文件夹
有许多框架可以让你处理这个
我对Kafka连接的了解
重点是,不要重新发明能够编写不必要(也可能是错误的)代码的风险。
答案 1 :(得分:1)
如果您想阅读单个文件,那么
cat ${file} | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_topic
如果文件是动态创建的,那么您需要监控它们并将其提供给kafka-console-producer.sh