Question

我一直在使用Spark处理大型数据集。上周，当我运行以下代码行时，它可以正常运行，但现在抛出错误：NameError：未定义名称“ split”。有人可以解释为什么这不起作用，我该怎么办？未定义名称拆分...我应该定义方法吗？我应该导入依赖吗？该文档没有说我必须导入任何东西才能使用split方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)

Answer 1

您可以使用pyspark.sql.functions.split() (Link)

或者您可以使用

导入所有Spark功能

from pyspark.sql.functions import *

NameError：名称“ split”未使用Spark定义

1 个答案: