应用错误收集

对于包含重新分区的Spark作业，“尚未启动任务”

时间：2015-03-07 22:44:49

标签： apache-spark pyspark

对于 pyspark 工作一段时间后，我已经开始研究“尚未开始任务”，这个问题已被隔离为：

使用：

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

添加repartition（）并挂起“尚未启动任务”：

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

这是与CDH5捆绑在一起的1.2.0

0 个答案:

没有答案