我正在将流媒体应用程序从水槽移动到kafka 因为我是卡夫卡的新手,所以我需要帮助。
我有一台Windows机器,IOT传感器在特定位置连续生成CSV文件,例如D:/ Folder。
我想把它转移到hadoop集群。
1)在传输日志文件之间是否需要kafka集群/代理?或者我可以直接从我的Windows机器转移到hadoop linux机器吗?
2)我可以在windows和hadoop linux机器上安装kafka然后直接将我的CSV文件发布到在hadoop机器上创建的kafka主题。
我会在hadoop机器上运行一个消费者吗?
答案 0 :(得分:0)
使用kafka使用者获取文件并将其放在HDFS上。您需要一个生产者来发送队列中的文件和消费者,以便用它们做你想做的事。
生产者可以在Windows中运行,需要使用kafka client api。
消费者必须在HDFS上运行。您需要在群集上安装kafka,配置它等等......取决于您的Hadoop发行版。
答案 1 :(得分:0)
在传输日志文件之间是否需要kafka群集/代理
如果你想使用Kafka,那么是的,你需要一个真正的集群。
我可以直接从我的Windows机器转移到hadoop linux机器吗?
不确定。使用Flume,Spark,Flink,NiFi等。没有必要使用Kafka
我可以在Windows和hadoop linux机器上安装kafka然后直接将我的CSV文件发布到在hadoop机器上创建的kafka主题
您不会为生产者客户安装Kafka。您下载这些库并使用它们来发布消息。随意在Hadoop节点上安装Kafka,但它们应该在独立硬件上