我用一个拥有10个奴隶的Spark集群进行了旋转,然后执行了以下操作。
export AWS_ACCESS_KEY_ID=**key_here**
export AWS_SECRET_ACCESS_KEY=**key_here**
cd spark/bin
./pyspark
logs = sqlContext.read.json("s3n://file/path/2015-11-17-14-20-30")
我在下面收到以下错误。
例外:(“你必须使用Hive构建Spark。导出'SPARK_HIVE = true'并运行build / sbt程序集”,Py4JJavaError(调用None.org.apache.spark.sql.hive.HiveContext时发生错误) 。\ n',JavaObject id = o23))
我不确定在导出spark hive变量或在哪里找到build / sbt文件夹后我必须采取的其他步骤。有关如何将此数据传输到群集的任何建议吗?
答案 0 :(得分:1)
Spark S3访问建立在Hadoop的S3访问之上 - 如果您自己构建Spark(看起来像这样),请按照说明重新编译(SPARK_HIVE = true作为环境变量,然后再次运行sbt)。否则下载一个"预先构建的Hadoop"火花版本