我正在尝试创建一个UDF以在带有列名称的Spark sql查询中使用它。我收到Py4JJavaError。
请帮助我解决问题。我想使用dataframe.show()
来查看结果。
display(ss) and ss.printSchema()
在工作,但是ss.show()
在工作。
from pyspark.sql.types import IntegerType
def squared_typed(s):
if not s: return
return int(s * s)
spark.udf.register("squaredWithPython", squared_typed, IntegerType())
spark.range(1, 20).registerTempTable("test")
ss = spark.sql('''select squaredWithPython(id) as idsquared from test''')