在spark上配置配置单元的问题

时间:2016-09-27 05:06:09

标签: hadoop apache-spark hive hdfs bigdata

我已经下载了spark-2.0.0-bin-hadoop2.7。任何人都可以建议如何配置hive并在scala控制台中使用?现在我可以使用Scala(spark-shell控制台)在文件上运行RDD。

3 个答案:

答案 0 :(得分:0)

将您的hive-site.xml放在spark conf目录

答案 1 :(得分:0)

Hive可以支持多个执行引擎。像TEZ,Spark一样。 您可以在hive-site.xml中设置该属性

</property> 
<name>hive.execution.engine</name>
<value>spark</value>
<description>
 I am choosing Spark as the execution engine
</description>
</property>

将jars spark-assembly jar复制到HIVE_HOME / lib

设置spark_home

设置以下属性

set spark.master=<Spark Master URL>
set spark.eventLog.enabled=true;
set spark.eventLog.dir=<Spark event log folder (must exist)>
set spark.executor.memory=512m;             
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

以上步骤就足够我认为

答案 2 :(得分:0)

关注官方Hive on Spark文档:

https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

您可以使用以下命令在Hive上设置火花引擎:

set hive.execution.engine=spark;

或通过在hive-site.xml上添加它(参考kanishka帖子)

然后在Hive 2.2.0之前,将spark-assembly jar复制到HIVE_HOME / lib。

从Hive 2.2.0开始,Hive on Spark运行Spark 2.0.0及更高版本,它没有装配jar。

要以YARN模式(yarn-client或yarn-cluster)运行,请将以下jar复制到HIVE_HOME / lib。

  

阶文库

     

火花芯

     

火花网络共同

设置spark_home:

export $SPARK_HOME=/path-to-spark

启动Spark Master和Workers:

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT

配置Spark:

set spark.master=<Spark Master URL>;
set spark.executor.memory=512m; 
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);     
set spark.serializer=org.apache.spark.serializer.KryoSerializer;