我正在尝试使用oozie在hive脚本中加载text / csv文件,并每天安排它。文本文件位于本地unix文件系统中。
我需要在oozie工作流程中执行hive脚本之前将这些文本文件放入hdfs。
在实时集群中,我们不知道作业将运行在哪个node.it将在集群中的任何一个节点中随机运行。
任何人都可以为我提供解决方案。
提前致谢。
答案 0 :(得分:1)
不确定我明白你想做什么。
我看到它的方式,它不起作用:
那么为什么不预先将文件加载到HDFS中呢?当文件可用时(上游作业中的后处理操作)或固定时间(使用Linux CRON),可以触发传输。
如果您的NameNode上的WebHDFS服务处于活动状态,您甚至不需要在Linux机器上使用Hadoop库 - 只需使用CURL和HTTP上传。