我有一个数据框:
'O'
我想按值排序,然后排名。这看起来应该很简单,但是我没有看到它是如何在文档中完成的,或者是Pyspark的SO,仅用于R和Scala。
这是排序后应该看的样子,.show()应该打印:
# +---+--------+---------+
# | id| rank | value |
# +---+--------+---------+
# | 1| A | 10 |
# | 2| B | 46 |
# | 3| D | 8 |
# | 4| C | 8 |
# +---+--------+---------+
答案 0 :(得分:7)
df.orderBy(["value", "rank"], ascending=[1, 1])
参考:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.orderBy
答案 1 :(得分:3)
说你的数据帧存储在一个名为df的变量中
您要df.orderBy('value').show()
进行排序