定期上传HDFS上的数据

时间:2013-08-06 20:50:22

标签: hadoop

我正在研究一个项目,我会实时积累数据。我想定期将本地计算机上的数据上传到HDFS。这里频率每两个小时。

我的想法是安排批处理文件在2小时后定期运行。

1 个答案:

答案 0 :(得分:2)

您有几种选择:

  • 使用cron作业。
  • 如果您希望这更复杂,可以使用Apache Oozie安排工作。
  • 如果您希望以分布式,可靠和容错的方式完成此操作,则可以使用Apache Flume。使用Flume,您甚至可以通过为数据源编写Custom Flume Source直接从源收集数据,而无需先将数据汇总到本地FS中,然后将其移至HDFS。