如何读取hadoop作业中的其他文件?

时间:2012-06-19 06:00:48

标签: python hadoop

我需要在字典文件中读取以过滤hdfs_input中指定的内容,并使用put命令将其上传到群集,但我不知道如何访问它在我的计划中。

我尝试使用群集上的路径像普通文件一样访问它,但它提供了错误信息:IOError:[Errno 2] No such file or directory

此外,有没有办法只为所有运行该作业的机器维护一个字典副本?

那么访问hadoop作业中指定input以外的文件的正确方法是什么?

1 个答案:

答案 0 :(得分:0)

通过在conf文件中添加-file选项或file=选项所需的文件来解决问题。