为什么从RDD到JSON会删除数据的实际顺序?

时间:2019-02-13 06:10:31

标签: apache-spark pyspark apache-spark-sql pyspark-sql

我正在尝试从pyspark数据帧中创建JSON。我在数据框中看到数据已正确排序,但是当使用toJSON时,排序未反映在JSON对象中。你能帮忙吗

我的数据框如下:

enter image description here

当我使用toJSON时会发生这种情况

enter image description here

1 个答案:

答案 0 :(得分:2)

由于spark以分布式方式工作,并且记录大部分分布在工作节点上,因此当我们执行收集数据时,这些记录将通过网络传输到驱动程序节点,而不必以相同的顺序排列。通过某个键对它们进行排序将涉及更多处理。