>>> c=sc.parallelize(["a","b","c"])
>>> d=c.map(lambda z:(z,z))
>>> d.collect()
这些命令执行完后,最后一个collect命令停止执行,并且完全执行。
18/07/03 21:19:28 INFO executor.Executor: Running task 0.0 in stage 0.0 (TID 0)
更新: 这可能是由于内存不足,但不确定。如果我在虚拟盒子上打开新的VM,pyspark命令将正常运行。