我需要将Windows共享位置中的文件(zip,csv,xml等)带到HDFS。哪种方法最好?我想到了卡夫卡-水槽-HDFS。请提出有效的方法。
我尝试将文件提供给Kafka使用者。
producer.send( 新的ProducerRecord(topicName,key,value),
期望一种有效的方法
答案 0 :(得分:0)
默认情况下,Kafka不用于发送文件,仅发送最大1MB的单个消息。
您可以在Hadoop中安装NFS网关,那么您应该能够直接从Windows共享复制到HDFS,而无需任何流技术,仅Windows计算机上的预定脚本或外部运行
或者您可以将Windows共享安装在某些Hadoop节点上,并在需要连续文件传递时安排Cron作业-https://superuser.com/a/1439984/475508
我见过的其他解决方案使用诸如Nifi / Streamsets之类的工具,可用于读取/移动文件
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html