Spark另存为JSON,忽略空值

时间:2019-03-01 07:27:49

标签: json apache-spark

我正在从Kafka获取RDD作为JSON数据。

{id:"A",amount:"100"}
{id:"B",amount:"NULL"}

然后,使用Spark内置函数创建DataFrame spark.read.json(rdd),这将给我

id|amount
 a|100
 b|NULL

schema:
  id:String
  amount:String

然后,我将金额转换为Integer,然后NULL值自动转换为null。因此,在进行类型转换后,我的数据看起来像

id|amount
 a|100
 b|null

再进行几次转换后,我将这些记录再次转换为JSON并写入另一个Kafka。因此,当我将这些记录转换为JSON时,空值将被忽略。

{id:"a",amount:100}
{id:"b"}

在推到Kafka之前,我再次将数据类型转换为String Type。所以,我需要输出为

{id:"a",amount:"100"}
{id:"b",amount:"NULL"}

0 个答案:

没有答案