标签: apache-spark apache-spark-sql hiveql hive-udf
我有一个扩展GenericUDF的HiveUDF,当我通过spark.sql调用udf时,我得到了正确的结果,但初始化的方法被多次调用。
无法理解为什么会这样?
答案 0 :(得分:1)
这里似乎是一个火花虫https://issues.apache.org/jira/browse/SPARK-17728。
您可以在应用UDF之前尝试cache()数据,但有时这种解决方法会降低性能。
cache()