应用错误收集

Pyspark命令移至新行

时间：2019-04-02 05:28:42

标签： pyspark

为什么在pyspark中执行的以下查询移至下一行而不是执行当前命令

cloudera VM 5.X中的

spark 1.6

创建名称为fprdd的rdd（此命令执行得很好）

pair1rdd = fprdd.map（lambda x：（x [2]，（x [0]，x [1]））

甚至尝试通过Shift + Enter选择命令（同样是徒劳的）

点击Enter进入新行

任何人都可以为我提供可能的解决方案。

1 个答案:

答案 0 :(得分：1)

为了获得此问题的答案，您应该仔细研究火花中的lazy evaluation。

Spark中的所有转换都是惰性的，因为它们不计算他们的结果马上。相反，他们只记得应用于某些基本数据集（例如文件）的转换。的仅当操作需要结果才能计算转换时返回驱动程序。这种设计使Spark可以运行更有效率。例如，我们可以意识到创建了一个数据集通过映射将用于减少并仅返回结果减少到驱动程序，而不是更大的映射数据集。