Cloudera快速入门VM缺少Spark 2.0或更高版本

时间:2018-11-05 05:58:13

标签: apache-spark cloudera cloudera-quickstart-vm

为了测试和学习Spark功能,开发人员需要Spark最新版本。由于2.0版之前的API和方法已经过时,因此在新版本中不再起作用。这带来了更大的挑战,开发人员被迫手动安装Spark,这浪费了大量的开发时间。

如何在Quickstart VM上使用更高版本的Spark?

1 个答案:

答案 0 :(得分:0)

每个人都不要浪费我浪费的设置时间,所以这里是解决方法。

Cloudera VM上的SPARK 2.2安装设置

第1步:从链接中下载quickstart_vm:

首选vmware平台,因为它易于使用,无论如何,所有选项都是可行的。

大小约为整个tar文件的5.4gb。我们需要提供公司电子邮件ID,因为它不接受个人电子邮件ID。

第2步:虚拟环境需要大约8gb的RAM,请分配足够的内存以避免性能故障。

第3步:请打开终端并以以下身份切换为root用户:

su root
 password: cloudera

步骤4:Cloudera提供了Java –版本1.7.0_67,该版本较旧且与我们的需求不匹配。为了避免与Java相关的异常,请使用以下命令安装Java:

下载Java:

wget -c --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz

使用“ cd / usr / java /”命令切换到/ usr / java /目录。

将Java下载tar文件cp到/ usr / java /目录。

使用“ tar –zxvf jdk-8u31-linux-x64.tar.gz”解压缩目录

使用命令“ vi〜/ .bash_profile”打开配置文件

将JAVA_HOME导出到新的Java目录。

export JAVA_HOME=/usr/java/jdk1.8.0_131

保存并退出。

为了反映以上更改,需要在shell上执行以下命令:

source ~/.bash_profile

Cloudera VM默认提供spark 1.6版本。但是,1.6 API较旧,与生产环境不匹配。在这种情况下,我们需要下载并手动安装Spark 2.2。

使用以下命令切换到/ opt /目录:

cd /opt/

使用以下命令下载spark

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

使用以下命令解开火花焦油:

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

我们需要定义一些环境变量作为默认设置:

请使用以下命令打开文件:

vi /opt/spark-2.2.0-bin-hadoop2.7/conf/spark-env.sh

在文件中粘贴以下配置:

SPARK_MASTER_IP=192.168.50.1
SPARK_EXECUTOR_MEMORY=512m
SPARK_DRIVER_MEMORY=512m
SPARK_WORKER_MEMORY=512m
SPARK_DAEMON_MEMORY=512m

保存并退出

我们需要使用以下命令启动spark

/opt/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh

导出spark_home:

export SPARK_HOME=/opt/spark-2.2.0-bin-hadoop2.7/

更改目录的权限:

chmod 777 -R /tmp/hive

尝试“火花壳”,它应该可以工作。