我按照本指南一步一步在我的PC窗口10上安装pyspark和jupyter笔记本: http://www.jbencina.com/blog/2017/07/15/installing-pyspark-jupyter-notebook-windows/
我按照指南的说法设置了所有内容,但是当我运行命令“pyspark”时,我收到此错误消息:
执行Jupyter命令'notebook'时出错:[Errno'jupyter-notebook'not found] 2
试图找一个解决方案,但我没有发现任何特别像我的情况,最相似的是关于linux上的pyspark。
如果有人能解释我需要改变什么才能使它发挥作用,我会很有意思! 如果有人还有关于如何在Windows上使用pyspark的其他指南,也会很棒,我还是新手。
答案 0 :(得分:1)
在Windows 10上安装PYSPARK 带有ANACONDA NAVIGATOR的JUPYTER-NOTEBOOK
下载软件包
1)spark-2.2.0-bin-hadoop2.7.tgz Download
2)java jdk 8版本Download
3)Anaconda v 5.2 Download
4)scala-2.12.6.msi Download
5)hadoop v2.7.1 Download
在 C:/ 中制作火花文件夹,驱动并放入其中的所有内容 It will look like this
注意:在安装SCALA时将SCALA放入火花文件夹内的路径
现在设置新的Windows环境变量
HADOOP_HOME=C:\spark\hadoop
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
SCALA_HOME=C:\spark\scala\bin
SPARK_HOME=C:\spark\spark\bin
PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe
PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe
PYSPARK_DRIVER_PYTHON_OPTS=notebook
立即选择火花路径:
点击编辑并添加
在变量“ Path” Windows中添加“ C:\ spark \ spark \ bin ”
就这样,您的浏览器将使用Juypter localhost弹出
检查pyspark是否正常工作!
输入简单代码并运行
from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)