Question

要将函数应用于Spark中的列，常见的方法（唯一的方法是？）似乎是

df.withColumn(colName, myUdf(df.col(colName))

很好，但我的名字中有圆点的列，要访问列，我需要用反引号“`”来取消名称

问题是：如果我使用该转义名称，.withColumn函数会创建一个带有转义名称的新列

df.printSchema
root
 |-- raw.hourOfDay: long (nullable = false)
 |-- raw.minOfDay: long (nullable = false)
 |-- raw.dayOfWeek: long (nullable = false)
 |-- raw.sensor2: long (nullable = false)

df = df.withColumn("raw.hourOfDay", df.col("raw.hourOfDay"))
org.apache.spark.sql.AnalysisException: Cannot resolve column name "raw.hourOfDay" among (raw.hourOfDay, raw.minOfDay, raw.dayOfWeek, raw.sensor2);

这有效：

df = df.withColumn("`raw.hourOfDay`", df.col("`raw.hourOfDay`"))
df: org.apache.spark.sql.DataFrame = [raw.hourOfDay: bigint, raw.minOfDay: bigint, raw.dayOfWeek: bigint, raw.sensor2: bigint, `raw.hourOfDay`: bigint]

scala> df.printSchema
root
 |-- raw.hourOfDay: long (nullable = false)
 |-- raw.minOfDay: long (nullable = false)
 |-- raw.dayOfWeek: long (nullable = false)
 |-- raw.sensor2: long (nullable = false)
 |-- `raw.hourOfDay`: long (nullable = false)

但正如您所见，架构有一个新的转义列名。

如果我执行上述操作并尝试删除带有转义名称的旧列，它将删除旧列，但在此之后，任何访问新列的尝试都会产生如下结果：

org.apache.spark.sql.AnalysisException: Cannot resolve column name "`raw.sensor2`" among (`raw.hourOfDay`, `raw.minOfDay`, `raw.dayOfWeek`, `raw.sensor2`);

好像它现在将反引号理解为名称的标准而不是转义字符。

那么如何在不更改名称的情况下用withColumn替换旧栏目？

（PS：请注意我的列名是参数化的，所以我在名称上使用了一个循环。为了清楚起见，我在这里使用了特定的字符串名称：转义序列看起来真的像“`”+ colName +“`”）

修改

现在我发现的唯一技巧就是：

for (t <- df.columns) {
      if (t.contains(".")) {
        df = df.withColumn("`" + t + "`", myUdf(df.col("`" + t + "`")))
        df = df.drop(df.col("`" + t + "`"))
        df = df.withColumnRenamed("`" + t + "`", t)
      }
      else {
        df = df.withColumn(t, myUdf(df.col(t)))
      }
    }

我觉得效率不高......

编辑：

文档状态：

def withColumn(colName: String, col: Column): DataFrame
Returns a new DataFrame by adding a column 
or replacing the existing column that has the same name.

因此更换列应该不是问题。但正如@Glennie所指出的那样，使用新名称可以正常工作，所以这可能是Spark 1.6中的一个错误

Answer 1

感谢您的伎俩。

df = df.withColumn("`" + t + "`", myUdf(df.col("`" + t + "`")))
df = df.drop(df.col("`" + t + "`"))
df = df.withColumnRenamed("`" + t + "`", t)

这对我来说很好。期待看到更好的解决方案。只是为了提醒我们，我们将遇到类似的问题＆＃39;＃＆＃39;性格也是。

Answer 2

我不相信你可以添加一个与现有列同名的列（为什么会这样？）。

df = df.withColumn("raw.hourOfDay", df.col("`raw.hourOfDay`"))

如你所指出的，

会失败，但不是因为名称没有被正确转义，而是因为名称与现有列相同。

df = df.withColumn("raw.hourOfDay_2", df.col("`raw.hourOfDay`"))

另一方面，

将评估得很好：）

Spark 1.6将函数应用于名称中带点的列/如何正确转义colName

2 个答案: