应用错误收集

这是我的pyspark数据框，如下所示：

else if (array[mid] > target) { right = mid - 1; }
else { left = mid + 1; }

我想将数据转换为某种json格式：

+------------+-----+----------+--------+
|session_id  |url  |zip_code  |os_sys  |
+------------+-----+----------+--------+ 
| 1          | a   | 10010    | ios    |
| 1          | b   | 10010    | ios    |
| 1          | c   | 10010    | ios    |
| 1          | d   | 10010    | ios    |
| 2          | e   | 10013    | win    |
| 2          | f   | 10013    | win    |

这个问题困扰着我，因为我首先需要按session_id进行汇总，然后需要将zip_code和os_sys行值减少为每个session_id组中的一个。

请注意，我的数据非常大，数十亿行。我不认为遍历行可能是有效的。

您可以分享任何想法吗？

如何将Pyspark数据帧转换为某些格式的嵌套JSON

0 个答案: