如何通过群集中的oozie工作流将文本文件加载到hdfs中

时间:2015-08-15 11:26:45

标签: hadoop hdfs oozie

我正在尝试使用oozie在hive脚本中加载text / csv文件,并每天安排它。文本文件位于本地unix文件系统中。

我需要在oozie工作流程中执行hive脚本之前将这些文本文件放入hdfs。

在实时集群中,我们不知道作业将运行在哪个node.it将在集群中的任何一个节点中随机运行。

任何人都可以为我提供解决方案。

提前致谢。

1 个答案:

答案 0 :(得分:1)

不确定我明白你想做什么。

我看到它的方式,它不起作用:

  • Oozie服务器只能访问HDFS文件(与Hive相同)
  • 您的数据位于某处的本地文件系统

那么为什么不预先将文件加载到HDFS中呢?当文件可用时(上游作业中的后处理操作)或固定时间(使用Linux CRON),可以触发传输。

如果您的NameNode上的WebHDFS服务处于活动状态,您甚至不需要在Linux机器上使用Hadoop库 - 只需使用CURL和HTTP上传。