Question

我在ubuntu下使用pyspark和python 2.7 我用

安装了它

Failed to load platform rendering library

尝试按照instruction设置火花群

我找不到脚本start-master.sh 我认为这与我安装pyspark而不是常规spark

的事实有关

我发现here我可以通过pyspark将工作节点连接到主节点，但是如何用pyspark启动主节点？

Answer 1

Spark的Python包装并非旨在取代所有用例。这个Python打包版本的Spark适合与现有集群（无论是Spark独立，YARN还是Mesos）进行交互 - 但不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

Answer 2

嗯，我在操作中做了一些混淆。

你需要在应该作为主机运行的机器上获得火花。您可以下载here

解压后，你有spark / sbin文件夹，你有start-master.sh脚本。你需要用-h参数启动它。

请注意，您需要创建一个类似于解释here的spark-env文件并定义spark local和master变量，这在主机上很重要。

之后，在工作节点上，使用start-slave.sh脚本启动工作节点。

你很高兴，你可以在python中使用spark上下文来使用它！

Answer 3

如果您已经通过conda / pip安装使用了pyspark，则无需再次安装Spark和设置环境变量来进行集群设置。

对于conda / pip pyspark安装仅缺少'conf'，'sbin'，'kubernetes'，'yarn'文件夹，您可以简单地下载Spark并将这些文件夹移至该文件夹中pyspark位于（通常是python内的site-packages文件夹）。