scala-如何在最后一个点后对字符串名称进行子字符串化?

时间:2018-07-31 15:12:06

标签: scala apache-spark dataframe apache-spark-sql

分解嵌套结构后,我得到一个DataFrame,其列名称如下:

sales_data.metric1
sales_data.type.metric2
sales_data.type3.metric3

执行选择时出现错误:

cannot resolve 'sales_data.metric1' given input columns: [sales_data.metric1, sales_data.type.metric2, sales_data.type3.metric3]

我应该如何从DataFrame中进行选择,以便正确解析列名?

我尝试了以下操作:点提取成功后的子字符串。但是由于我也有没有点的列,例如date-它们的名称已被完全删除。

var salesDf_new = salesDf 
for(col <- salesDf .columns){
  salesDf_new = salesDf_new.withColumnRenamed(col, StringUtils.substringAfterLast(col, "."))
}

我只想保留metric1,metric2,metric3

1 个答案:

答案 0 :(得分:1)

您可以使用反引号选择名称包含句点的列。

val df = (1 to 1000).toDF("column.a.b")

df.printSchema
// root
//  |-- column.a.b: integer (nullable = false)

df.select("`column.a.b`")

此外,您可以像这样轻松地重命名它们。基本上从当前的DataFrame开始,继续为每个字段使用新的列名对其进行更新,并返回最终结果。

val df2 = df.columns.foldLeft(df)(
    (myDF, col) => myDF.withColumnRenamed(col, col.replace(".", "_"))
)

编辑:获取最后一个组件

要仅使用姓氏名称进行重命名,此正则表达式将起作用:

val df2 = df.columns.foldLeft(df)(
    (myDF, col) => myDF.withColumnRenamed(col, col.replaceAll(".+\\.([^.]+)$", "$1"))
)

编辑2:获取最后两个组件

这有点复杂,可能有一种更简洁的编写方法,但这是一种可行的方法:

val pattern = (
    ".*?"  +          // Lazy match leading chars so we ignore that bits we don't want
    "([^.]+\\.)?" +   // Optional 2nd to last group
    "([^.]+)$"        // Last group
)

val df2 = df.columns.foldLeft(df)(
    (myDF, col) => myDF.withColumnRenamed(col, col.replaceAll(pattern, "$1$2"))
)
df2.printSchema