对于包含重新分区的Spark作业,“尚未启动任务”

时间:2015-03-07 22:44:49

标签: apache-spark pyspark

对于 pyspark 工作一段时间后,我已经开始研究“尚未开始任务”,这个问题已被隔离为:

使用:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

添加repartition()并挂起“尚未启动任务”:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

这是与CDH5捆绑在一起的1.2.0

0 个答案:

没有答案