检查空列值,并在Spark DataFrame中将其替换为CONSTANT

时间:2019-01-29 12:34:56

标签: scala apache-spark apache-spark-sql user-defined-functions

我是Spark和Scala的新手。

我已经从Spark中的csv创建了一个DataFrame。 生成的DataFrame中有一列,其中某些行的值为空。

我要检查此空值,并用一个常量字词“ Hello”替换它。

如何在Spark中做到这一点?

这是我的示例代码,用于从csv创建数据框。

val DFCsv = spark.read.format("csv") .option("sep", ',') .option("inferSchema", "true") .option("header", "true") .load("/tmp/my.csv")
 DFCsv.show() 

现在,该数据框中名为“ id”的列中的某些列为null或某些行为空/空白。

如何依次遍历每一行,然后用常量“ Hello”字符串填充名为“ id”的列。

1 个答案:

答案 0 :(得分:-2)

最简单的方法之一是用Option包围空值,然后对其进行模式匹配。

Option(null) gets converted to None
Option(null).getOrElse("Hello)