我今天下载了Spark-1.4.0,并尝试在Linux和Windows环境中启动sparkR shell - 来自bin目录的命令 sparkR 不起作用。任何人都成功发布了sparkR shell,请。让我知道。
由于 桑杰
答案 0 :(得分:0)
我可以帮助您完成Windows的设置。不幸的是,我不知道Linux。 我的解决方案如下,我也在blog
上发布此解决方案的一个限制是它仅适用于命令行解释器,这意味着您可以从命令提示符调用sparkR,但不能使用任何前端IDE(如RStudio)。我还在试图弄清楚如何让sparkR在RStudio上工作。 诀窍是确保正确设置环境变量。我正在使用Windows 7 HP版64位操作系统。第一步是下载Maven,SBT
将变量名称设置为`JAVA_HOME(如果您的计算机上未安装JAVA,请按照以下步骤操作)。接下来将变量值设置为JDK PATH。在我的情况下它是'C:\ Program Files \ Java \ jdk1.7.0_79 \'(请输入没有单引号的路径) 同样,创建一个新的系统变量并将其命名为PYTHON_PATH。将变量值设置为计算机上的Python路径。在我的情况下它是'C:\ Python27 \'(请输入没有单引号的路径) 创建一个新的系统变量并将其命名为HADOOP_HOME。将变量值设置为C:\ winutils。 (注意:没有必要安装Hadoop。火花外壳只需要Hadoop路径,在这种情况下,它将值保存到winutils,这将让我们在windows环境中编译spark程序。 创建一个新的系统变量并将其命名为SPARK_HOME。将变量值指定为Spark二进制位置的路径。就我而言,它位于'C:\ SPARK \ BIN' 创建一个新的系统变量并将其命名为SBT_HOME。将变量值指定为Spark二进制位置的路径。就我而言,它位于'C:\ PROGRAM FILES(x86)\ SBT \' 创建一个新的系统变量并将其命名为MAVEN_HOME。将变量值指定为Spark二进制位置的路径。就我而言,它位于'C:\ PROGRAM FILES \ APACHE MAVEN 3.3.3 \' 创建所有这些变量后,接下来选择“系统变量”下的“路径”变量,然后单击“编辑”按钮。将弹出一个名为“编辑系统变量”的窗口。保持变量名称“Path”不变。在变量值中,将以下字符串附加为给定的
%JAVA_HOME%\ bin中;%PYTHONPATH%;%SPARK_HOME%;%HADOOP_HOME%;
%MAVEN_HOME%\ bin中;%M3_HOME%\ bin中; “ 单击“确定”按钮关闭环境变量窗口。
现在打开终端(命令提示符窗口)并通过键入命令 pyspark 来调用pysparkR。如果要调用scala,则命令为 spark-shell
希望这有帮助。
干杯