RDD映射失败:
utRDD.map(lambda usr_text: tok.tokenize(usr_text[1])).take(1)
,出现错误: 引发Py4JError(
Py4JJavaError:调用时发生错误 z:org.apache.spark.api.python.PythonRDD.runJob。 : org.apache.spark.SparkException:由于阶段失败,作业中止了: 阶段161.0中的任务0失败1次,最近一次失败:丢失的任务 在阶段161.0(TID 974,本地主机,执行程序驱动程序)中为0.0:org.apache.spark.api.python.Python.PythonException:追溯(最新 最后通话):
但要通过更长的代码:
len(utRDD.map(lambda usr_text: tok.tokenize(usr_text[1])).reduce(lambda x, y: set(x) | set(y)))
为什么矮个子失败了?