如何使用pyspark启动独立群集?

时间:2017-07-24 13:57:36

标签: python apache-spark pyspark

我在ubuntu下使用pyspark和python 2.7 我用

安装了它
Failed to load platform rendering library

尝试按照instruction设置火花群

我找不到脚本start-master.sh 我认为这与我安装pyspark而不是常规spark

的事实有关

我发现here我可以通过pyspark将工作节点连接到主节点,但是如何用pyspark启动主节点?

3 个答案:

答案 0 :(得分:4)

https://pypi.python.org/pypi/pyspark

  

Spark的Python包装并非旨在取代所有用例。这个Python打包版本的Spark适合与现有集群(无论是Spark独立,YARN还是Mesos)进行交互 - 但不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

答案 1 :(得分:1)

嗯,我在操作中做了一些混淆。

你需要在应该作为主机运行的机器上获得火花。 您可以下载here

解压后,你有spark / sbin文件夹,你有start-master.sh脚本。你需要用-h参数启动它。

请注意,您需要创建一个类似于解释here的spark-env文件并定义spark local和master变量,这在主机上很重要。

之后,在工作节点上,使用start-slave.sh脚本启动工作节点。

你很高兴,你可以在python中使用spark上下文来使用它!

答案 2 :(得分:1)

如果您已经通过conda / pip安装使用了pyspark,则无需再次安装Spark和设置环境变量来进行集群设置。

对于conda / pip pyspark安装仅缺少'conf''sbin''kubernetes''yarn'文件夹,您可以简单地下载Spark并将这些文件夹移至该文件夹中pyspark位于(通常是python内的site-packages文件夹)。