Spark:rdd.collect()运行正常,但rdd.take(5)抛出异常

时间:2017-04-07 13:19:47

标签: java apache-spark pyspark

我对Spark相对较新。我在Windows上以独立模式安装了spark。当我尝试使用rdd.take(5)时,它抛出以下异常:

  

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob时发生错误。   :org.apache.spark.SparkException:作业因阶段失败而中止:阶段4.0中的任务0失败1次,最近失败:阶段4.0中丢失的任务0.0(TID 7,localhost):java.net.SocketException:连接重置by peer:socket write error

尽管如此,rdd.collect()成功运行,rdd.take()会抛出错误。发生这种情况的原因是什么?

编辑: 添加我的代码:

import findspark
findspark.init("C:\Users\PolestarEmployee\spark-1.6.3-bin-hadoop2.6")
from pyspark import SparkContext, SparkConf
sc = SparkContext()
data = sc.textFile("train.csv")
data.take(20)

EDIT2: 第一行数据如下所示:(使用collect()粘贴结果的部分部分

  

[u'AnimalID,名称,日期时间,OutcomeType,OutcomeSubtype,AnimalType,SexuponOutcome,AgeuponOutcome,品种,颜色”,   u'A671945,Hambone,2014-02-12 18:22:00,Return_to_owner ,, Dog,Neutered   男,1年,设得兰群岛牧羊犬混合,棕色/白色',   u'A656520,Emily,2013-10-13 12:44:00,安乐死,苦难,猫,Spayed   女,1年,国内短毛混合,奶油虎斑',   u'A686464,Pearce,2015-01-31 12:28:00,收养,寄养,狗,绝育   男,2年,Pit Bull Mix,Blue / White',u'A683430 ,,, 2014-07-11   19:09:00,转让,合作伙伴,猫,完整男性,3周,国内短毛猫   Mix,Blue Cream',u'A667013 ,, 2013-11-15   12:52:00,转让,伴侣,狗,绝育男,2年,拉萨   Apso / Miniature Poodle,Tan',

0 个答案:

没有答案