我正在通过字段对我的spark Dataframe进行分组,并尝试收集与该数组中的该组/键相关联的所有元素。我在.agg()中使用collect_list()。我正在使用Scala Like:
val ndf = grp.agg(collect_list(col("site")))
这里grp是我在分组后获得的数据框架" site"是我从中收集条目的列。
如果我在spark-shell中运行,这是有效的。但是当我使用spark-submit运行我的整个代码时。我正在进口:
import org.apache.spark.sql.functions._
这是collect_list方法的位置。
两个Spark版本都是一样的。唯一的区别是spark-shell默认初始化Hivecontext但不在我的流程中。但据我所知,这与hive上下文无关。
这是什么问题?有人在这里也有同样的问题:
https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/sql/functions.html