当我将pandas.DataFrame
转移到spark.sql.dataframe
时,它引发了“ FileNotFoundError”。该代码以前可以正常运行,但现在不能。
这是回溯:
import pyspark.sql.types as typ
spark=SparkSession.builder.master("local").appName('yiguan').getOrCreate()
sc=spark.sparkContext
device_train_spark=spark.createDataFrame(deviceid_train)
device_train_spark.show(4)
deviceid_train 是一个“ pandas.core.frame.DataFrame”
FileNotFoundError Traceback(最近一次调用 最后)在() 11#“ age_level”,typ.IntegerType(),True) 12#]) ---> 13 device_train_spark = spark.createDataFrame(deviceid_train) 14 device_train_spark.show(4)
e:\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在 createDataFrame(自己,数据,架构,sampleRatio,verifySchema) 第689章 690其他: -> 691 rdd,schema = self._createFromLocal(map(prepare,data),schema) (692)第jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd()) 第693章真相大白(四更)
e:\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在 _createFromLocal(自己,数据,架构) 422#将python对象转换为sql数据 423个数据= [schema.toInternal(row)for data in row] -> 424返回self._sc.parallelize(data),模式 425 426 def _get_numpy_record_dtype(self,rec):
e:\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在 parallelize(self,c,numSlices) 494 batchSize = max(1,min(len(c)// numSlices,self._batchSize或1024)) 495序列化器= BatchedSerializer(self._unbatched_serializer,batchSize) -> 496个jrdd = self._serialize_to_jvm(c,numSlices,序列化器) 497返回RDD(jrdd,self,serializer) 498
e:\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在 _serialize_to_jvm(自身,数据,并行性,序列化器) 将503个对象写入文件并通过textFile()加载。 504“”“ -> 505 tempFile = NamedTemporaryFile(delete = False,dir = self._temp_dir) 506尝试: 507 serializer.dump_stream(data,tempFile)
e:\ software \ python36 \ lib \ tempfile.py in NamedTemporaryFile(mode, 缓冲,编码,换行,后缀,前缀,目录,删除) 547个标志| = _os.O_TEMPORARY 548 -> 549(fd,名称)= _mkstemp_inner(dir,前缀,后缀,标志,output_type) 550尝试: 551 file = _io.open(fd,mode,buffering = buffering,
_mkstemp_inner中的e:\ software \ python36 \ lib \ tempfile.py(dir,pre,suf, 标志,output_type) 258文件= _os.path.join(dir,pre +名称+ suf) 259尝试: -> 260 fd = _os.open(文件,标志,0o600) 261除了FileExistsError: 262继续#再试一次
FileNotFoundError:[错误2]没有这样的文件或目录: 'C:\ Users \ CT \ AppData \ Local \ Temp \ spark-b55a0865-0f1f-415e-96d8-a826df1c43ec \ pyspark-1e1331d8-98d6-424a-ab5e-44c0bf2e7dd7 \ tmpb_l2gn63'
为什么现在不起作用?