Scala如何使用sqlContext在查询中处理isnull或ifnull

时间:2018-03-10 03:56:13

标签: sql scala apache-spark isnull

我有两个数据文件如下:

course.txt 
id,course 
1,Hadoop
2,Spark
3,HBase
5,Impala

Fee.txt 
id,amount 
2,3900
3,4200
4,2900

我需要列出所有课程信息及费用:

sqlContext.sql("select c.id, c.course, f.amount from course c left outer join fee f on f.id = c.id").show
+---+------+------+
| id|course|amount|
+---+------+------+
|  1|Hadoop|  null|
|  2| Spark|3900.0|
|  3| HBase|4200.0|
|  5|Impala|  null|
+---+------+------+

如果费用表中没有显示课程,那么我想显示“不适用”,而不是显示为空。

我已经尝试了以下内容但尚未获得:

命令1:

sqlContext.sql("select c.id, c.course, ifnull(f.amount, 'N/A') from course c left outer join fee f on f.id = c.id").show

错误:org.apache.spark.sql.AnalysisException:未定义的函数ifnull;第1行40位

命令2:

sqlContext.sql("select c.id, c.course, isnull(f.amount, 'N/A') from course c left outer join fee f on f.id = c.id").show

错误: org.apache.spark.sql.AnalysisException:没有Hive udf类org.apache.hadoop.hive.ql.udf.generic.GenericUDFOPNull的处理程序,因为:运算符' IS NULL'只接受1个参数..;第1行40位

在Scala中的sqlContext中处理此问题的正确方法是什么?非常感谢你。

5 个答案:

答案 0 :(得分:2)

如果是spark SQL,请使用合并UDF

select 
  c.id, 
  c.course, 
  coalesce(f.amount, 'N/A') as amount 
from c 
left outer join f 
on f.id = c.id"

答案 1 :(得分:1)

您可以使用ifisnull函数和 N / A文字

简单sql查询中执行以下操作
course.createOrReplaceTempView("c")
fee.createOrReplaceTempView("f")
sqlContext.sql("select c.id, c.course, if(isnull(f.amount), 'N/A', f.amount) as amount from c left outer join f on f.id = c.id").show

您应该有以下输出

+---+------+------+
| id|course|amount|
+---+------+------+
|  1|Hadoop|   N/A|
|  2| Spark|  3900|
|  3| HBase|  4200|
|  5|Impala|   N/A|
+---+------+------+

我希望答案很有帮助

答案 2 :(得分:0)

使用DataFrameNA函数。连接完成后,您可以使用DataFrameNA填充函数

将所有空值替换为字符串

https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/DataFrameNaFunctions.html

答案 3 :(得分:0)

使用Spark DataFrame API,您可以when/otherwise使用isNull条件:

val course = Seq(
  (1, "Hadoop"),
  (2, "Spark"),
  (3, "HBase"),
  (5, "Impala")
).toDF("id", "course")

val fee = Seq(
  (2, 3900),
  (3, 4200),
  (4, 2900)
).toDF("id", "amount")

course.join(fee, Seq("id"), "left_outer").
  withColumn("amount", when($"amount".isNull, "N/A").otherwise($"amount")).
  show
// +---+------+------+
// | id|course|amount|
// +---+------+------+
// |  1|Hadoop|   N/A|
// |  2| Spark|  3900|
// |  3| HBase|  4200|
// |  5|Impala|   N/A|
// +---+------+------+

如果您更喜欢使用Spark SQL,那么这是一个等效的SQL:

course.createOrReplaceTempView("coursetable")
fee.createOrReplaceTempView("feetable")

val result = spark.sql("""
  select
    c.id, c.course,
    case when f.amount is null then 'N/A' else f.amount end as amount
  from
    coursetable c left outer join feetable f on f.id = c.id
""")

答案 4 :(得分:0)

在sqlContext中,使用“ NVL”

import { createBrowserHistory } from 'history';

export const history = createBrowserHistory();