我用pyspark配置了eclipse
我正在使用最新版本的SPARK和PYTHON。
当我尝试编写代码并运行时。我得到以下错误。
java.io.IOException: Cannot run program "python": CreateProcess error=2, The system cannot find the file specified
我写的代码在下面
'''
Created on 23-Dec-2017
@author: lenovo
'''
from pyspark import SparkContext,SparkConf
from builtins import int
#from org.spark.com.PySparkDemo import data
from pyspark.sql import Row
from pyspark.sql.context import SQLContext
conf = SparkConf().setAppName("FileSystem").setMaster("local")
sc=SparkContext(conf=conf)
sqlContext=SQLContext(sc)
a = sc.textFile("C:/Users/lenovo/Desktop/file.txt")
b = a.map(lambda x:x.split(",")).map(lambda x:Row(id=int(x[0]),name=x[1],marks=int(x[2])))
c = sqlContext.createDataFrame(b)
c.show()
请建议
答案 0 :(得分:3)
假设您已安装pydev
Windows下的>偏好> Pydev>口译员> python interpreters>去环境
在环境下,您需要提供pyhton.exe
文件的路径,变量名称为PYSPARK_PYTHON
答案 1 :(得分:0)
我在 Windows 10 上遇到了同样的问题:
这是我所做的:
目录“C:\spark\conf”有一个文件spark-env.sh.template。我将其更改为 spark-env.cmd。
保留所有现有文本的注释。 (您必须将 # 替换为 :: 才能进行评论)
添加了以下行来设置 PYSPARK_PYTHON 变量。
设置 PYSPARK_PYTHON=C:\python\python.exe
它解决了错误。在 stackoverflow 上引用此线程:encountered a ERROR that Can't run program on pyspark