pyspark找不到文件

时间:2018-09-10 11:27:05

标签: pandas pyspark

当我将pandas.DataFrame转移到spark.sql.dataframe时,它引发了“ FileNotFoundError”。该代码以前可以正常运行,但现在不能。 这是回溯:

import pyspark.sql.types as typ
spark=SparkSession.builder.master("local").appName('yiguan').getOrCreate()
sc=spark.sparkContext
device_train_spark=spark.createDataFrame(deviceid_train)
device_train_spark.show(4)

deviceid_train 是一个“ pandas.core.frame.DataFrame”

  

FileNotFoundError Traceback(最近一次调用   最后)在()        11#“ age_level”,typ.IntegerType(),True)        12#])   ---> 13 device_train_spark = spark.createDataFrame(deviceid_train)        14 device_train_spark.show(4)

     

e:\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在   createDataFrame(自己,数据,架构,sampleRatio,verifySchema)       第689章       690其他:   -> 691 rdd,schema = self._createFromLocal(map(prepare,data),schema)       (692)第jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())       第693章真相大白(四更)      

e:\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在   _createFromLocal(自己,数据,架构)       422#将python对象转换为sql数据       423个数据= [schema.toInternal(row)for data in row]   -> 424返回self._sc.parallelize(data),模式       425       426 def _get_numpy_record_dtype(self,rec):

     

e:\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在   parallelize(self,c,numSlices)       494 batchSize = max(1,min(len(c)// numSlices,self._batchSize或1024))       495序列化器= BatchedSerializer(self._unbatched_serializer,batchSize)   -> 496个jrdd = self._serialize_to_jvm(c,numSlices,序列化器)       497返回RDD(jrdd,self,serializer)       498

     

e:\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在   _serialize_to_jvm(自身,数据,并行性,序列化器)       将503个对象写入文件并通过textFile()加载。       504“”“   -> 505 tempFile = NamedTemporaryFile(delete = False,dir = self._temp_dir)       506尝试:       507 serializer.dump_stream(data,tempFile)

     

e:\ software \ python36 \ lib \ tempfile.py in NamedTemporaryFile(mode,   缓冲,编码,换行,后缀,前缀,目录,删除)       547个标志| = _os.O_TEMPORARY       548   -> 549(fd,名称)= _mkstemp_inner(dir,前缀,后缀,标志,output_type)       550尝试:       551 file = _io.open(fd,mode,buffering = buffering,

     _mkstemp_inner中的

e:\ software \ python36 \ lib \ tempfile.py(dir,pre,suf,   标志,output_type)       258文件= _os.path.join(dir,pre +名称+ suf)       259尝试:   -> 260 fd = _os.open(文件,标志,0o600)       261除了FileExistsError:       262继续#再试一次

     

FileNotFoundError:[错误2]没有这样的文件或目录:   'C:\ Users \ CT \ AppData \ Local \ Temp \ spark-b55a0865-0f1f-415e-96d8-a826df1c43ec \ pyspark-1e1331d8-98d6-424a-ab5e-44c0bf2e7dd7 \ tmpb_l2gn63'

为什么现在不起作用?

0 个答案:

没有答案