使用python代码在Spark中注册用户定义的函数时遇到问题,它引发错误消息“ 无法序列化对象:异常:您似乎正在尝试从广播变量,操作或转换引用SparkContext ”
这是代码段。
%python
def checkColumnNames(columnName,inputFilePath):
filePath = inputFilePath
data = spark.read.parquet(filePath)
columnNames = data.limit(1).columns
toreturn = 0
if columnName in columnNames:
toreturn = 1
else:
toreturn = 0
return (toreturn)
sqlContext.udf.register("checkColumnNames", checkColumnNames)
有人可以帮我吗?