我正在观看Doug Eadline Hadoop和Spark基础知识。我是Hadoop And Pig的新手,所以我很难理解这条线
grunt> A = load 'passwd' using PigStorage(':'):
变量“ passwd”指的是什么? 我的HDP Hortonworks密码还是其他密码? 如果我去
grunt> DUMP A;
终端输出
2019-07-13 19:51:07,300 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2118: Input path does not exist: hdfs://sandbox-hdp.hortonworks.com:8020/user/root/passwd
Details at logfile: /root/pig_1563047441325.log
答案 0 :(得分:1)
如果它正在尝试加载hdfs://sandbox-hdp.hortonworks.com:8020/user/root/passwd
,则其计算方式为
fs.defaultFS
(来自core-site.xml
的属性)+ /user/
+ $(whoami)
(在您的情况下,您以root
用户的身份启动Pig),然后输入任何文件名。
您可以使用A = load '/user/root/passwd'
或load 'hdfs:///user/root/passwd'
也许他们首先将/etc/passwd
复制到HDFS?或从/etc
目录启动Pig,然后使用pig -x local
启动Pig,它在本地启动Pig,不需要Hadoop集群。