Question

我在pyspark中有一个数据框。在此数据框中，我有一个名为id的列，它是唯一的。

现在，我想在数据框中找到列maximum的{{1}}值。

我试过以下

id

但得到以下错误

df['id'].max()

请告诉我如何在数据框中找到列的TypeError: 'Column' object is not callable值

在@Dadep的回答中，链接给出正确答案

Answer 1

如果您使用pandas .max()将起作用：

>>> df2=pd.DataFrame({'A':[1,5,0], 'B':[3, 5, 6]})
>>> df2['A'].max()
5

否则，如果它是spark数据帧：

Answer 2

我来自scala，但我相信这也适用于python。

val max = df.select(max("id")).first()

但您首先导入以下内容：

import org.apache.spark.sql.functions.max

Answer 3

以下内容可在pyspark中使用：

df.select(max("id")).show()

Answer 4

您可以使用下面的pyspark文档链接中提到的合计最大值：

代码：

row1 = df1.agg({"id": "max"}).collect()[0]