如何将Pyspark数据帧转换为某些格式的嵌套JSON

时间:2019-10-23 17:44:18

标签: json dataframe pyspark nested

这是我的pyspark数据框,如下所示:

else if (array[mid] > target) { right = mid - 1; }
else { left = mid + 1; }

我想将数据转换为某种json格式:

+------------+-----+----------+--------+
|session_id  |url  |zip_code  |os_sys  |
+------------+-----+----------+--------+ 
| 1          | a   | 10010    | ios    |
| 1          | b   | 10010    | ios    |
| 1          | c   | 10010    | ios    |
| 1          | d   | 10010    | ios    |
| 2          | e   | 10013    | win    |
| 2          | f   | 10013    | win    |

这个问题困扰着我,因为我首先需要按session_id进行汇总,然后需要将zip_code和os_sys行值减少为每个session_id组中的一个。

请注意,我的数据非常大,数十亿行。我不认为遍历行可能是有效的。

您可以分享任何想法吗?

0 个答案:

没有答案