Question

我用一个拥有10个奴隶的Spark集群进行了旋转，然后执行了以下操作。

export AWS_ACCESS_KEY_ID=**key_here**
export AWS_SECRET_ACCESS_KEY=**key_here**

cd spark/bin
./pyspark

logs = sqlContext.read.json("s3n://file/path/2015-11-17-14-20-30")

我在下面收到以下错误。

例外：（“你必须使用Hive构建Spark。导出'SPARK_HIVE = true'并运行build / sbt程序集”，Py4JJavaError（调用None.org.apache.spark.sql.hive.HiveContext时发生错误）。\ n'，JavaObject id = o23））

我不确定在导出spark hive变量或在哪里找到build / sbt文件夹后我必须采取的其他步骤。有关如何将此数据传输到群集的任何建议吗？

Answer 1

Spark S3访问建立在Hadoop的S3访问之上 - 如果您自己构建Spark（看起来像这样），请按照说明重新编译（SPARK_HIVE = true作为环境变量，然后再次运行sbt）。否则下载一个＆＃34;预先构建的Hadoop＆＃34;火花版本

Spark / S3导入数据

1 个答案: