Question

当我将pandas.DataFrame转移到spark.sql.dataframe时，它引发了“ FileNotFoundError”。该代码以前可以正常运行，但现在不能。这是回溯：

import pyspark.sql.types as typ
spark=SparkSession.builder.master("local").appName('yiguan').getOrCreate()
sc=spark.sparkContext
device_train_spark=spark.createDataFrame(deviceid_train)
device_train_spark.show(4)

deviceid_train 是一个“ pandas.core.frame.DataFrame”

FileNotFoundError Traceback（最近一次调用   最后）在（）        11＃“ age_level”，typ.IntegerType（），True）        12＃]）   ---> 13 device_train_spark = spark.createDataFrame（deviceid_train）        14 device_train_spark.show（4）

e：\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在   createDataFrame（自己，数据，架构，sampleRatio，verifySchema）       第689章       690其他：   -> 691 rdd，schema = self._createFromLocal（map（prepare，data），schema）       （692）第jrdd = self._jvm.SerDeUtil.toJavaArray（rdd._to_java_object_rdd（））       第693章真相大白（四更）
e：\ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py在   _createFromLocal（自己，数据，架构）       422＃将python对象转换为sql数据       423个数据= [schema.toInternal（row）for data in row]   -> 424返回self._sc.parallelize（data），模式       425       426 def _get_numpy_record_dtype（self，rec）：

e：\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在   parallelize（self，c，numSlices）       494 batchSize = max（1，min（len（c）// numSlices，self._batchSize或1024））       495序列化器= BatchedSerializer（self._unbatched_serializer，batchSize）   -> 496个jrdd = self._serialize_to_jvm（c，numSlices，序列化器）       497返回RDD（jrdd，self，serializer）       498

e：\ software \ python36 \ lib \ site-packages \ pyspark \ context.py在   _serialize_to_jvm（自身，数据，并行性，序列化器）       将503个对象写入文件并通过textFile（）加载。       504“”“   -> 505 tempFile = NamedTemporaryFile（delete = False，dir = self._temp_dir）       506尝试：       507 serializer.dump_stream（data，tempFile）

e：\ software \ python36 \ lib \ tempfile.py in NamedTemporaryFile（mode，   缓冲，编码，换行，后缀，前缀，目录，删除）       547个标志| = _os.O_TEMPORARY       548   -> 549（fd，名称）= _mkstemp_inner（dir，前缀，后缀，标志，output_type）       550尝试：       551 file = _io.open（fd，mode，buffering = buffering，
     _mkstemp_inner中的
e：\ software \ python36 \ lib \ tempfile.py（dir，pre，suf，   标志，output_type）       258文件= _os.path.join（dir，pre +名称+ suf）       259尝试：   -> 260 fd = _os.open（文件，标志，0o600）       261除了FileExistsError：       262继续＃再试一次

FileNotFoundError：[错误2]没有这样的文件或目录：   'C：\ Users \ CT \ AppData \ Local \ Temp \ spark-b55a0865-0f1f-415e-96d8-a826df1c43ec \ pyspark-1e1331d8-98d6-424a-ab5e-44c0bf2e7dd7 \ tmpb_l2gn63'

为什么现在不起作用？

pyspark找不到文件

0 个答案: