文件传输到HDFS

时间:2019-06-01 19:25:06

标签: hadoop apache-kafka flume

我需要将Windows共享位置中的文件(zip,csv,xml等)带到HDFS。哪种方法最好?我想到了卡夫卡-水槽-HDFS。请提出有效的方法。

我尝试将文件提供给Kafka使用者。

producer.send(                     新的ProducerRecord(topicName,key,value),

期望一种有效的方法

1 个答案:

答案 0 :(得分:0)

默认情况下,Kafka不用于发送文件,仅发送最大1MB的单个消息。

您可以在Hadoop中安装NFS网关,那么您应该能够直接从Windows共享复制到HDFS,而无需任何流技术,仅Windows计算机上的预定脚本或外部运行

或者您可以将Windows共享安装在某些Hadoop节点上,并在需要连续文件传递时安排Cron作业-https://superuser.com/a/1439984/475508

我见过的其他解决方案使用诸如Nifi / Streamsets之类的工具,可用于读取/移动文件
https://community.hortonworks.com/articles/26089/windows-share-nifi-hdfs-a-practical-guide.html