每周从FTP下载文件到HDFS

时间:2014-03-13 09:22:29

标签: hadoop ftp hdfs cloudera oozie

我想自动将每周从ftp服务器下载文件到CDH5 hadoop集群。最好的方法是什么?

我在想Oozie协调员的工作,但我想不出一个下载文件的好方法。

2 个答案:

答案 0 :(得分:2)

由于您正在使用CDH5,因此值得注意的是,HDFS的NFSv3接口包含在该Hadoop发行版中。您应该在CDH5安装指南文档中检查“Configuring an NFSv3 Gateway”。

完成后,您可以使用wget,curl,python等将文件放到NFS挂载上。您可能希望通过Oozie执行此操作...进入作业设计器并创建“Shell”命令的副本。输入您选择进行数据传输的命令(python脚本,curl,ftp等),并使用$ {myVar}参数化作业。

这不完美,但我认为它相当优雅。

答案 1 :(得分:1)

我想你要拉一个文件。

一个简单的解决方案是您可以使用运行工作流的协调器。

工作流程应该有shell动作

http://oozie.apache.org/docs/3.3.0/DG_ShellActionExtension.html

其中的脚本可以有

wget http://myftp.com/file.name

您可以在脚本中执行所需的所有操作