Question

我们如何在spark中实现以下逻辑？

如果列值为空，则应返回'' 如果ltrim（rtrim（column））为null，则应返回'' 否则，它应该填充该列的值

Answer 1

df=df.withColumn("new_col",when(col("old_col").isNull(),"").otherwise(col("old_col")))

首选DF，而不是rdd，因为它涉及引擎盖下的优化

Answer 2

我不是pyspark的人，但是如果您查看下面的Scala和

示例，

然后您应该可以继续前进。我提供了两种修整方式，以及RDD中的贴图。

3行显示一般原理：

protected void Application_Start()
{
    // Add this code, if not present.
    AreaRegistration.RegisterAllAreas();

    // ...
}