使用Java从Spark数据框中删除空白记录(具有null和所有类型的空白)

时间:2019-02-06 23:44:59

标签: java apache-spark apache-spark-sql

当我说所有类型的空格时,我的意思是空格或空白空格。因此,此字符串可以为空,也可以具有空格,或两个空格,等等。我将考虑所有这些空格,并将其从数据框中删除。到目前为止,我有:

Dataset<Row> dayCustAcctCardJoinCustDF = dayCustAcctCard
  .filter(dayCustAcctCard.col(custJoinKey).isNotNull())
  .select(acctJoinKey, custJoinKey);

这只是从原始数据帧中删除空值。我希望增强该过滤器,以删除并记录具有空白值或1个字符长度的空白,2个字符长度的空白等的custJoinKey值的人。

0 个答案:

没有答案