Question

我正在使用Hadoop和HDFS 2.7.1.2.4以及Pig 0.15.0.2.4（Hortonworks HDP 2.4）并尝试使用Google Cloud Storage Connector for Spark and Hadoop（GitHub上的bigdata-interop）。当我尝试时，它正常工作，

hadoop fs -ls gs://bucket-name

但是当我在Pig（在mapreduce模式下）中尝试以下内容时：

data = LOAD 'gs://softline/o365.avro' USING AvroStorage();
data = STORE data INTO 'gs://softline/o366.avro' USING AvroStorage();

Pig失败并出现以下错误：

org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Wrong FS scheme: hdfs, in path: hdfs://hdp.slweb.ru:8020/user/root, expected scheme: gs
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:279)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:301)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:318)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:196)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
    at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:497)
    at org.apache.pig.backend.hadoop23.PigJobControl.submit(PigJobControl.java:128)
    at org.apache.pig.backend.hadoop23.PigJobControl.run(PigJobControl.java:194)
    at java.lang.Thread.run(Thread.java:745)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:276)
Caused by: java.lang.IllegalArgumentException: Wrong FS scheme: hdfs, in path: hdfs://hdp.slweb.ru:8020/user/root, expected scheme: gs
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.checkPath(GoogleHadoopFileSystemBase.java:741)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem.checkPath(GoogleHadoopFileSystem.java:90)
    at org.apache.hadoop.fs.FileSystem.makeQualified(FileSystem.java:466)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.makeQualified(GoogleHadoopFileSystemBase.java:701)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem.getGcsPath(GoogleHadoopFileSystem.java:163)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.setWorkingDirectory(GoogleHadoopFileSystemBase.java:1094)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:235)
    ... 18 more

如果需要，我可以发布GC连接器的日志。

Hame有人用这个连接器使用Pig吗？任何帮助都会被指定。

Answer 1

TL; DR 在启动猪作业时显式设置workmapreduce.job.working.dir = / user / root /

如果在作业提交期间未明确设置工作目录，则Hadoop会将工作目录设置为默认文件系统的工作目录。当使用HDFS作为默认FS时，工作目录通常类似于'hdfs：// namenode：port / user /＆lt; your username＆gt;'。

当调用PigInputFormat #getSplits时，它会获取与其正在操作的输入路径关联的FileSystem。在这种情况下，文件系统是GoogleHadoopFileSystem的一个实例。然后Pig检查其输入的路径，如果路径是非本地调用FileSystem＃setWorkingDirectory（job.getWorkingDirectory（））。这里的问题是作业的工作目录是'hdfs：// namenode：port / user /＆lt; your username＆gt;'哪个GoogleHadoopFileSystem会拒绝将其设置为自己的工作目录（因为它只支持'gs：//'路径）。

适用于Hadoop的Google Cloud连接器不适用于Pig

1 个答案: