我有以下数据框,第三列是“clickedAirbnb”,第四列是“rank”
| Tom| Paris| | 1|
| Tom| Mumbai| | 1|
| Tom| Stockolm| | 1|
| Tom| Oslo| airbnb1| 2|
| Tom| Tokyo| airbnb1| 2|
| Tom| Bangalore| airbnb1| 2|
| Sam| Seoul| airbnb11| 1|
| Sam| Tokyo| airbnb11| 1|
| Sam| Berlin| airbnb12| 2|
| Sam| Bangalore| airbnb12| 2|
| Sam| Singapore| airbnb12| 2|
| Sam| Oslo| airbnb2| 3|
| Sam| Amsterdam| airbnb2| 3|
| Sam| Bangalore| airbnb2| 3|
我想返回列“clickedAirbnb”包含空值并且“rank”列上的max小于2的那些。 这是我尝试但不起作用(抱怨列无效操作)
val result1and2 = result.where(col("clickedAirbnb").contains("")
&& max(col("rank")) <= 2)
有没有办法计算列的最大值?
UPDATE1: 要备份一点,结果df就像这样计算
val window = Window.partitionBy(df1("User")).orderBy(df1("clickedAirbnb"))
val result = df1.withColumn("clickedDestHotRank", dense_rank().over(window))
现在返回clickedAirbnb(第三列)为空且排名(第4列)的最大值不超过2的用户
val result2 = result.where(col("clickedAirbnb").contains("")
&& (max(col("rank")) <=2))
答案 0 :(得分:0)
似乎你想要:
类似的东西,也许:
//those that have no value in clickedAirbnb
val resultTmp = result.where(col("clickedAirbnb")==="")
//is its max("rank")<=2 ?
val b = resultTmp.select(max("rank")<=2).first().getBoolean(0)
if(b){
resultTmp.show()
}
希望我理解得很好。
答案 1 :(得分:0)
我希望有类似的东西:
>>> from pyspark.sql.functions import *
>>> sc = spark.sparkContext
>>> rdd = sc.parallelize([
['Tom','Paris','',1],
['Tom','Mumbai','',1],
['Tom','Stockolm','',1],
['Tom','Oslo','airbnb1',2],
['Tom','Tokyo','airbnb1',2],
['Tom','Bangalore','airbnb1',2],
['Sam','Seoul','airbnb11',1],
['Sam','Tokyo','airbnb11',1],
['Sam','Berlin','airbnb12',2],
['Sam','Bangalore','airbnb12',2],
['Sam','Singapore','airbnb12',2],
['Sam','Oslo','airbnb2',3],
['Sam','Amsterdam','airbnb2',3],
['Sam','Bangalore','airbnb2',3]
])
>>> df = rdd.toDF(['name','city','clickedAirbnb', 'rank'])
>>> df.show()
+----+---------+-------------+----+
|name| city|clickedAirbnb|rank|
+----+---------+-------------+----+
| Tom| Paris| | 1|
| Tom| Mumbai| | 1|
| Tom| Stockolm| | 1|
| Tom| Oslo| airbnb1| 2|
| Tom| Tokyo| airbnb1| 2|
| Tom|Bangalore| airbnb1| 2|
| Sam| Seoul| airbnb11| 1|
| Sam| Tokyo| airbnb11| 1|
| Sam| Berlin| airbnb12| 2|
| Sam|Bangalore| airbnb12| 2|
| Sam|Singapore| airbnb12| 2|
| Sam| Oslo| airbnb2| 3|
| Sam|Amsterdam| airbnb2| 3|
| Sam|Bangalore| airbnb2| 3|
+----+---------+-------------+----+
>>> df.where(col("clickedAirbnb") == "").where(col("rank") <= 2).show()
+----+--------+-------------+----+
|name| city|clickedAirbnb|rank|
+----+--------+-------------+----+
| Tom| Paris| | 1|
| Tom| Mumbai| | 1|
| Tom|Stockolm| | 1|
+----+--------+-------------+----+
答案 2 :(得分:-1)
注册临时表,然后编写所需的查询
your_data_frame.registerTempTable("table1");
res = sqlCtx.sql("select * where clickedAirbnb = "" and max(rank)<=2 from table1) ;