对于 pyspark 工作一段时间后,我已经开始研究“尚未开始任务”,这个问题已被隔离为:
使用:
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()
添加repartition()并挂起“尚未启动任务”:
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()
这是与CDH5捆绑在一起的1.2.0