通过Pyspark将GCP连接到Hive

时间:2020-08-03 06:02:22

标签: google-cloud-platform pyspark hive

当我尝试通过我的pyspark作业创建Hive表时,出现错误提示

pyspark.sql.utils.AnalysisException: u'org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:java.io.IOException: Error accessing Bucket xyz)

此外,我还提供了以下参数-

.config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem") \
                    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS") \
                    .config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")\
                    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")\
                    .config("fs.gs.working.dir", "/")\
                    .config("fs.gs.path.encoding", "uri-path")\
                    .config("fs.gs.reported.permissions", "777")\
                    .config("google.cloud.auth.service.account.enable", "true")\
                    .config("google.cloud.auth.service.account.json.keyfile", JSON_KEY_FILE)

借助JSON服务帐户,我可以将其写入GCP存储桶。

0 个答案:

没有答案