我遵循此tutorial在Windows机器上安装pyspark,以便可以练习。我运行pyspark --master local[2]
以启动Juypter笔记本,在这里我可以使用本地计算机上的2个群集来运行pyspark。在Jupyter中,我使用了教程中提供的代码。
在Jupyter笔记本中初始化火花:
sc = SparkContext.getOrCreate()
sc.version
>> '2.3.3'
## I conclude from this that PySpark 2.3.3. "works"
创建一些示例数据:
import numpy as np
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(1000000)]).cache()
dots.count()
我收到以下错误
---------------------------------------------------------------------------
Py4JJavaError Traceback (most recent call last)
<ipython-input-4-0be12b3b7770> in <module>
4 dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
5
----> 6 dots.count()