我们如何在spark中实现以下逻辑?
如果列值为空,则应返回'' 如果ltrim(rtrim(column))为null,则应返回'' 否则,它应该填充该列的值
答案 0 :(得分:1)
df=df.withColumn("new_col",when(col("old_col").isNull(),"").otherwise(col("old_col")))
首选DF,而不是rdd,因为它涉及引擎盖下的优化
答案 1 :(得分:0)
我不是pyspark的人,但是如果您查看下面的Scala和
示例,然后您应该可以继续前进。我提供了两种修整方式,以及RDD中的贴图。
3行显示一般原理:
protected void Application_Start()
{
// Add this code, if not present.
AreaRegistration.RegisterAllAreas();
// ...
}