PySpark最小的列表

时间:2017-09-13 19:08:26

标签: pyspark

如何找到存储在单元格中的最小列表? 我可以做一个udf,但感觉有点矫枉过正。来自min的{​​{1}}函数仅适用于组(即groupBy的结果)。

pyspark.sql.functions

2 个答案:

答案 0 :(得分:1)

如果您导入pyspark.sql.functions并且已涵盖python的min,您仍然可以使用__builtins__前缀访问它,例如:

min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())

答案 1 :(得分:0)

只需排序然后取第一个值/行。

df.sort(col, ascending=True)