标签: apache-spark pyspark spark-dataframe apache-spark-mllib
我有一个pyspark数据框,其中包含一个包含字符串的列。我想将此列拆分为单词
代码:
foo = 1
我怎样才能做到这一点?
答案 0 :(得分:8)
使用split功能:
split
from pyspark.sql.functions import split df.withColumn("desc", split("desc", "\s+"))