Question

我正在写一位卡夫卡制片人它必须从本地Linux文件夹中读取数据并写入我的主题
有可能做那样的事吗？

这里的代码片段是什么（在Scala中）

商业案例 -

实时数据将以CSV文件的形式写在本地Linux文件夹中 - / data / data01 / pharma / 2017 /

如何将此数据移至我创建的主题？

我的消费者将读取此数据并添加到Spark流数据框以进行处理

Answer 1

实时数据将写在本地linux文件夹

有许多框架可以让你处理这个

我对Kafka连接的了解

重点是，不要重新发明能够编写不必要（也可能是错误的）代码的风险。

Answer 2

如果您想阅读单个文件，那么

cat ${file} | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_topic

如果文件是动态创建的，那么您需要监控它们并将其提供给kafka-console-producer.sh