我在pyspark
中有一个数据框。在此数据框中,我有一个名为id
的列,它是唯一的。
现在,我想在数据框中找到列maximum
的{{1}}值。
我试过以下
id
但得到以下错误
df['id'].max()
请告诉我如何在数据框中找到列的TypeError: 'Column' object is not callable
值
在@Dadep的回答中,链接给出正确答案
答案 0 :(得分:8)
如果您使用pandas .max()
将起作用:
>>> df2=pd.DataFrame({'A':[1,5,0], 'B':[3, 5, 6]})
>>> df2['A'].max()
5
否则,如果它是spark
数据帧:
答案 1 :(得分:1)
我来自scala,但我相信这也适用于python。
val max = df.select(max("id")).first()
但您首先导入以下内容:
import org.apache.spark.sql.functions.max
答案 2 :(得分:1)
以下内容可在pyspark中使用:
df.select(max("id")).show()
答案 3 :(得分:1)
您可以使用下面的pyspark文档链接中提到的合计最大值:
链接:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=agg
代码:
row1 = df1.agg({"id": "max"}).collect()[0]