计划数据加载到Hadoop

时间:2015-03-19 16:39:59

标签: hadoop hdfs oozie

只是想知道将来自各种来源的数据批量加载到HDFS的最佳方法是什么,主要是在预定时间以常规频率从FTP位置/文件服务器加载。

我知道Sqoop / Oozie组合可以用于RDBMS数据。但是,想知道使用调度机制将非结构化数据加载到HDFS的最佳方法是什么。

1 个答案:

答案 0 :(得分:1)

你可以用shell编程来做。我可以用一些代码来指导

 hadoop fs -cp ftp://uname:password@ftp2.xxxxa.com/filename  hdfs://IPofhdfs/user/root/Logs/

一些观点:

   1 finding the new files in ftp folder source by comparing  hdfs dest with filenames.
   2 pass the new filename to hdfs copy command.

---列出ftp中的所有文件,将文件列表存储到allfiles.txt -

  ftp -in ftp2.xxxx.com << SCRIPTEND
  user Luname pass
  lcd /home/Analytics/TempFiles
  ls > AllFiles.txt
  binary
  quit
  SCRIPTEND

  let me know if you need any info