我想自动将每周从ftp服务器下载文件到CDH5 hadoop集群。最好的方法是什么?
我在想Oozie协调员的工作,但我想不出一个下载文件的好方法。
答案 0 :(得分:2)
由于您正在使用CDH5,因此值得注意的是,HDFS的NFSv3接口包含在该Hadoop发行版中。您应该在CDH5安装指南文档中检查“Configuring an NFSv3 Gateway”。
完成后,您可以使用wget,curl,python等将文件放到NFS挂载上。您可能希望通过Oozie执行此操作...进入作业设计器并创建“Shell”命令的副本。输入您选择进行数据传输的命令(python脚本,curl,ftp等),并使用$ {myVar}参数化作业。
这不完美,但我认为它相当优雅。
答案 1 :(得分:1)
我想你要拉一个文件。
一个简单的解决方案是您可以使用运行工作流的协调器。
工作流程应该有shell动作
http://oozie.apache.org/docs/3.3.0/DG_ShellActionExtension.html
其中的脚本可以有
wget http://myftp.com/file.name
您可以在脚本中执行所需的所有操作