Question

我正在尝试在我的桌面计算机中运行Spark，它运行Windows 7（本地，不是来自群集或任何东西，以便进行一些练习），通过iPython笔记本中的pySpark找到一个包称为'findspark'（可在pip上获得），可用于避免必须通过Spark的设置。

基本上，我只是从官方下载为hadoop预先构建的spark版本，解压缩文件然后在python中运行这样的东西：

import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()

我得到一个完全正常工作的火花上下文，无需设置任何东西。然而，它运行得非常缓慢，如果我运行类似的东西：

print(sc.parallelize([1]).collect())

生成结果需要一秒钟，如果我尝试更昂贵的计算，它也会非常慢并且RAM内存使用量有限（即即使计算需要它也不会超过某一点） - 为了进行比较，我还从一个已经安装的Linux虚拟机中运行它，我在MOOC中下载了所有操作，运行速度更快。

我想知道我能做些什么，或者我可以配置什么来加速它。我的目标是在我的本地机器中使用pyspark在ipython笔记本中练习火花的功能实例。