这是我的pyspark数据框,如下所示:
else if (array[mid] > target) { right = mid - 1; }
else { left = mid + 1; }
我想将数据转换为某种json格式:
+------------+-----+----------+--------+
|session_id |url |zip_code |os_sys |
+------------+-----+----------+--------+
| 1 | a | 10010 | ios |
| 1 | b | 10010 | ios |
| 1 | c | 10010 | ios |
| 1 | d | 10010 | ios |
| 2 | e | 10013 | win |
| 2 | f | 10013 | win |
这个问题困扰着我,因为我首先需要按session_id进行汇总,然后需要将zip_code和os_sys行值减少为每个session_id组中的一个。
请注意,我的数据非常大,数十亿行。我不认为遍历行可能是有效的。
您可以分享任何想法吗?