应用错误收集

时间：2015-08-15 11:26:45

标签： hadoop hdfs oozie

我正在尝试使用oozie在hive脚本中加载text / csv文件，并每天安排它。文本文件位于本地unix文件系统中。

我需要在oozie工作流程中执行hive脚本之前将这些文本文件放入hdfs。

在实时集群中，我们不知道作业将运行在哪个node.it将在集群中的任何一个节点中随机运行。

任何人都可以为我提供解决方案。

提前致谢。

答案 0 :(得分：1)

不确定我明白你想做什么。

我看到它的方式，它不起作用：

那么为什么不预先将文件加载到HDFS中呢？当文件可用时（上游作业中的后处理操作）或固定时间（使用Linux CRON），可以触发传输。

如果您的NameNode上的WebHDFS服务处于活动状态，您甚至不需要在Linux机器上使用Hadoop库 - 只需使用CURL和HTTP上传。