在pyspark.sql.dataframe.DataFrame中创建一列,将“ 1”分配给前n个观测值,将“ 2”分配给后n个观测值,依此类推。

时间:2018-09-20 21:35:28

标签: pyspark-sql

我有一个看起来像这样的pyspark.sql.dataframe

ID   Score
1    0.4
2    0.3
3    0.35
4    0.5
5    0.7
6    0.2

我希望能够对数据框(按得分)进行排序,并添加一列,将“ 1”分配给第一个 n 观察值,将“ 2”分配给下一个 n < / em>观察结果等,这样我最终得到一个这样的数据帧(在此示例中, n = 2)

ID   Score   Segment
5    0.7     1
4    0.5     1
1    0.4     2
3    0.35    2
2    0.3     3
6    0.2     3

我一直在看pyspark.sql.Window,但是找不到实现它的好方法。谢谢!

0 个答案:

没有答案