标签: apache-spark pyspark apache-spark-sql pyspark-sql
我正在尝试从pyspark数据帧中创建JSON。我在数据框中看到数据已正确排序,但是当使用toJSON时,排序未反映在JSON对象中。你能帮忙吗
我的数据框如下:
当我使用toJSON时会发生这种情况
答案 0 :(得分:2)
由于spark以分布式方式工作,并且记录大部分分布在工作节点上,因此当我们执行收集数据时,这些记录将通过网络传输到驱动程序节点,而不必以相同的顺序排列。通过某个键对它们进行排序将涉及更多处理。