为什么rdd take(1)失败,但是可以执行更多代码?

时间:2019-05-17 12:59:00

标签: apache-spark pyspark

RDD映射失败:

utRDD.map(lambda usr_text: tok.tokenize(usr_text[1])).take(1)
  

,出现错误:       引发Py4JError(

     

Py4JJavaError:调用时发生错误   z:org.apache.spark.api.python.PythonRDD.runJob。 :   org.apache.spark.SparkException:由于阶段失败,作业中止了:   阶段161.0中的任务0失败1次,最近一次失败:丢失的任务   在阶段161.0(TID 974,本地主机,执行程序驱动程序)中为0.0:org.apache.spark.api.python.Python.PythonException:追溯(最新   最后通话):

但要通过更长的代码:

len(utRDD.map(lambda usr_text: tok.tokenize(usr_text[1])).reduce(lambda x, y: set(x) | set(y)))

为什么矮个子失败了?

0 个答案:

没有答案