Question

我是刚起步并尝试使用数据进行练习的新手。我在scala中使用数据块，对于数据集，我使用的是来自kaggle的FIFA 19完整播放器数据集。名为“ Weight”的列之一，其中包含看起来像

的数据

    +------+
    |Weight|
    +------+
    |136lbs|
    |156lbs|
    |136lbs|
    |...   |
    |...   |
    +------+

我想以这种方式更改列

    +------+
    |Weight|
    +------+
    |136   |
    |156   |
    |136   |
    |...   |
    |...   |
    +------+

任何人都可以帮助我如何更改spark sql中的列值。

Answer 1

这是使用正则表达式和regexp_extract内置函数的另一种方法：

import org.apache.spark.sql.functions.{regexp_extract}

val df = Seq(
"136lbs",
"150lbs",
"12lbs",
"30kg",
"500kg")
.toDF("weight")

df.withColumn("weight_num", regexp_extract($"weight", "\\d+", 0))
  .withColumn("weight_unit", regexp_extract($"weight", "[a-z]+", 0))
  .show

//Output
+------+----------+-----------+
|weight|weight_num|weight_unit|
+------+----------+-----------+
|136lbs|       136|        lbs|
|150lbs|       150|        lbs|
| 12lbs|        12|        lbs|
|  30kg|        30|         kg|
| 500kg|       500|         kg|
+------+----------+-----------+

Answer 2

您可以创建一个新列并使用regexp_replace

dataFrame.withColumn("Weight2", regexp_replace($"Weight" , lit("lbs"), lit("")))

如何从Spark的字符串列中提取数字部分？

2 个答案: