我早些时候在这里看过这个问题,并从中吸取了教训。但是,当我觉得它应该有效时,我不确定为什么会出现错误。
我想通过一些规则在现有的Spark DataFrame
中创建一个新列。这是我写的。 iris_spark是具有分类变量iris_spark的数据框,具有三个不同的类别。
from pyspark.sql import functions as F
iris_spark_df = iris_spark.withColumn(
"Class",
F.when(iris_spark.iris_class == 'Iris-setosa', 0, F.when(iris_spark.iris_class == 'Iris-versicolor',1)).otherwise(2))
引发以下错误。
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))
TypeError: when() takes exactly 2 arguments (3 given)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))
TypeError: when() takes exactly 2 arguments (3 given)
知道为什么吗?
答案 0 :(得分:28)
正确的结构是:
(when(col("iris_class") == 'Iris-setosa', 0)
.when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2))
相当于
CASE
WHEN (iris_class = 'Iris-setosa') THEN 0
WHEN (iris_class = 'Iris-versicolor') THEN 1
ELSE 2
END
或:
(when(col("iris_class") == 'Iris-setosa', 0)
.otherwise(when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2)))
相当于:
CASE WHEN (iris_class = 'Iris-setosa') THEN 0
ELSE CASE WHEN (iris_class = 'Iris-versicolor') THEN 1
ELSE 2
END
END
使用一般语法:
when(condition, value).when(...)
或
when(condition, value).otherwise(...)
您可能会将内容与Hive IF
条件混合:
IF(condition, if-true, if-false)
只能在具有Hive支持的原始SQL中使用。
答案 1 :(得分:2)
有多种方法可以实现if-then-else。
在DataFrame API中使用when函数。 您可以在何时指定条件列表,也可以在其他情况下指定所需的值。您也可以嵌套形式使用此表达式。
expr函数。 使用“ expr”功能,您可以在expr中传递SQL表达式。 PFB示例。在这里,我们根据月份列创建新列“季度”。
cond = """case when month > 9 then 'Q4' else case when month > 6 then 'Q3' else case when month > 3 then 'Q2' else case when month > 0 then 'Q1' end end end end as quarter""" newdf = df.selectExpr("*", cond)
{{1}}
希望这会有所帮助。
此致
Neeraj
答案 2 :(得分:1)
此答案是从sparkbyexamples偷来的
Spark中的条件语句
import org.apache.spark.sql.functions.{when, _}
import spark.sqlContext.implicits._
val spark: SparkSession = SparkSession.builder().master("local[1]").appName("SparkByExamples.com").getOrCreate()
val data = List(("James ","","Smith","36636","M",60000),
("Michael ","Rose","","40288","M",70000),
("Robert ","","Williams","42114","",400000),
("Maria ","Anne","Jones","39192","F",500000),
("Jen","Mary","Brown","","F",0))
val cols = Seq("first_name","middle_name","last_name","dob","gender","salary")
val df = spark.createDataFrame(data).toDF(cols:_*)
1。在DataFrame上使用“否则”
用新的价值代替性别的价值
val df1 = df.withColumn("new_gender", when(col("gender") === "M","Male")
.when(col("gender") === "F","Female")
.otherwise("Unknown"))
val df2 = df.select(col("*"), when(col("gender") === "M","Male")
.when(col("gender") === "F","Female")
.otherwise("Unknown").alias("new_gender"))
2。在DataFrame上使用“ case when”
val df3 = df.withColumn("new_gender",
expr("case when gender = 'M' then 'Male' " +
"when gender = 'F' then 'Female' " +
"else 'Unknown' end"))
或者,
val df4 = df.select(col("*"),
expr("case when gender = 'M' then 'Male' " +
"when gender = 'F' then 'Female' " +
"else 'Unknown' end").alias("new_gender"))
3。使用&&和||运算符
val dataDF = Seq(
(66, "a", "4"), (67, "a", "0"), (70, "b", "4"), (71, "d", "4"
)).toDF("id", "code", "amt")
dataDF.withColumn("new_column",
when(col("code") === "a" || col("code") === "d", "A")
.when(col("code") === "b" && col("amt") === "4", "B")
.otherwise("A1"))
.show()
输出:
+---+----+---+----------+
| id|code|amt|new_column|
+---+----+---+----------+
| 66| a| 4| A|
| 67| a| 0| A|
| 70| b| 4| B|
| 71| d| 4| A|
+---+----+---+----------+
答案 3 :(得分:1)
您可以使用以下命令:
if(exp1, exp2, exp3)
内的spark.sql()
其中exp1是条件,如果为true,则给我exp2,否则给我exp3。
现在,嵌套if-else的有趣之处是。您需要传递
内的每个expbrackets {"()"}
else it will raise error.
示例:
if((1>2), (if (2>3), True, False), (False))