NameError:名称“ split”未使用Spark定义

时间:2019-12-11 18:50:59

标签: apache-spark split pyspark-sql

我一直在使用Spark处理大型数据集。上周,当我运行以下代码行时,它可以正常运行,但现在抛出错误:NameError:未定义名称“ split”。有人可以解释为什么这不起作用,我该怎么办?未定义名称拆分...我应该定义方法吗?我应该导入依赖吗?该文档没有说我必须导入任何东西才能使用split方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)

1 个答案:

答案 0 :(得分:2)

您可以使用pyspark.sql.functions.split() (Link)

或者您可以使用

导入所有Spark功能
from pyspark.sql.functions import *