Question

使用Beeline连接到SparkSQL 1.3，我试图创建一个使用S3数据的表（使用s3a协议）：

CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata';

我收到以下错误：

Error: org.apache.spark.sql.execution.QueryExecutionException: FAILED: AmazonClientException Unable to load AWS credentials from any provider in the chain (state=,code=0)

我在spark-env.sh中设置了以下环境变量：

AWS_ACCESS_KEY_ID=<my_access_key>
AWS_SECRET_ACCESS_KEY=<my_secret_key>

我知道它正在接受这个环境，因为类路径也在这里设置，它引入了Hadoop工具库（它有S3连接器）。但是，当我以直线显示变量时，它表示它们未定义：

0: jdbc:hive2://localhost:10000> set env:AWS_ACCESS_KEY_ID;
+------------------------------------+
|                                    |
+------------------------------------+
| env:AWS_ACCESS_KEY_ID=<undefined>  |
+------------------------------------+
1 row selected (0.112 seconds)
0: jdbc:hive2://localhost:10000> set env:AWS_SECRET_ACCESS_KEY;
+----------------------------------------+
|                                        |
+----------------------------------------+
| env:AWS_SECRET_ACCESS_KEY=<undefined>  |
+----------------------------------------+
1 row selected (0.009 seconds)

设置fs.s3a.access.key和fs.s3a.secret.key也没有任何效果：

0: jdbc:hive2://localhost:10000> set fs.s3a.access.key=<my_access_key>;
0: jdbc:hive2://localhost:10000> set fs.s3a.secret.key=<my_secret_key>;

我需要在其他地方设置这个环境吗？

FWIW，我可以成功使用hadoop fs -ls s3a://mybucket/mydata列出文件。

更新：

我将以下内容添加到hive-site.xml：

<property>
  <name>fs.s3a.access.key</name>
  <value>my_access_key</value>
</property>
<property>
  <name>fs.s3a.secret.key</name>
  <value>my_secret_key</value>
</property>

我现在可以创建表而不会出错，但任何查询它的尝试都会导致此错误：

Error: org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 0.0 failed 1 times, most recent failure: 
Lost task 0.0 in stage 0.0 (TID 0, localhost): com.amazonaws.AmazonClientException: 
Unable to load AWS credentials from any provider in the chain

Answer 1

解决方案是将我的hdfs-site.xml文件（包含fs.s3a.access.key和fs.s3a.secret.key值）复制到$SPARK_HOME/conf。然后神奇地工作了。

通过Beeline使用Spark SQL时无法加载AWS凭据

1 个答案: