在PySpark Dataframe中拆分String列的内容

时间:2016-12-22 12:43:56

标签: apache-spark pyspark spark-dataframe apache-spark-mllib

我有一个pyspark数据框,其中包含一个包含字符串的列。我想将此列拆分为单词

代码:

foo = 1

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:8)

使用split功能:

from pyspark.sql.functions import split

df.withColumn("desc", split("desc", "\s+"))