只是想知道将来自各种来源的数据批量加载到HDFS的最佳方法是什么,主要是在预定时间以常规频率从FTP位置/文件服务器加载。
我知道Sqoop / Oozie组合可以用于RDBMS数据。但是,想知道使用调度机制将非结构化数据加载到HDFS的最佳方法是什么。
答案 0 :(得分:1)
你可以用shell编程来做。我可以用一些代码来指导
hadoop fs -cp ftp://uname:password@ftp2.xxxxa.com/filename hdfs://IPofhdfs/user/root/Logs/
一些观点:
1 finding the new files in ftp folder source by comparing hdfs dest with filenames.
2 pass the new filename to hdfs copy command.
---列出ftp中的所有文件,将文件列表存储到allfiles.txt -
ftp -in ftp2.xxxx.com << SCRIPTEND
user Luname pass
lcd /home/Analytics/TempFiles
ls > AllFiles.txt
binary
quit
SCRIPTEND
let me know if you need any info