如何在python数据帧中查找列的最大值

时间:2017-05-11 20:10:29

标签: python dataframe pyspark

我在pyspark中有一个数据框。在此数据框中,我有一个名为id的列,它是唯一的。

现在,我想在数据框中找到列maximum的{​​{1}}值。

我试过以下

id

但得到以下错误

df['id'].max()

请告诉我如何在数据框中找到列的TypeError: 'Column' object is not callable

  

在@Dadep的回答中,链接给出正确答案

4 个答案:

答案 0 :(得分:8)

如果您使用pandas .max()将起作用:

>>> df2=pd.DataFrame({'A':[1,5,0], 'B':[3, 5, 6]})
>>> df2['A'].max()
5

否则,如果它是spark数据帧:

Best way to get the max value in a Spark dataframe column

答案 1 :(得分:1)

我来自scala,但我相信这也适用于python。

val max = df.select(max("id")).first()

但您首先导入以下内容:

import org.apache.spark.sql.functions.max

答案 2 :(得分:1)

以下内容可在pyspark中使用:

df.select(max("id")).show()

答案 3 :(得分:1)

您可以使用下面的pyspark文档链接中提到的合计最大值:

链接:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=agg

代码:

row1 = df1.agg({"id": "max"}).collect()[0]