我正在尝试在我的桌面计算机中运行Spark,它运行Windows 7(本地,不是来自群集或任何东西,以便进行一些练习),通过iPython笔记本中的pySpark找到一个包称为'findspark'(可在pip上获得),可用于避免必须通过Spark的设置。
基本上,我只是从官方下载为hadoop预先构建的spark版本,解压缩文件然后在python中运行这样的东西:
import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()
我得到一个完全正常工作的火花上下文,无需设置任何东西。然而,它运行得非常缓慢,如果我运行类似的东西:
print(sc.parallelize([1]).collect())
生成结果需要一秒钟,如果我尝试更昂贵的计算,它也会非常慢并且RAM内存使用量有限(即即使计算需要它也不会超过某一点) - 为了进行比较,我还从一个已经安装的Linux虚拟机中运行它,我在MOOC中下载了所有操作,运行速度更快。
我想知道我能做些什么,或者我可以配置什么来加速它。我的目标是在我的本地机器中使用pyspark在ipython笔记本中练习火花的功能实例。