Question

如何找到存储在单元格中的最小列表？我可以做一个udf，但感觉有点矫枉过正。来自min的{{1}}函数仅适用于组（即groupBy的结果）。

pyspark.sql.functions

Answer 1

如果您导入pyspark.sql.functions并且已涵盖python的min，您仍然可以使用__builtins__前缀访问它，例如：

min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())

Answer 2

只需排序然后取第一个值/行。

df.sort(col, ascending=True)