集合内的collect_list()在SPARK 1.6.1中不起作用。错误:未定义的函数collect_list;

时间:2016-05-25 17:35:56

标签: scala apache-spark dataframe

我正在通过字段对我的spark Dataframe进行分组,并尝试收集与该数组中的该组/键相关联的所有元素。我在.agg()中使用collect_list()。我正在使用Scala Like:

val ndf = grp.agg(collect_list(col("site")))

这里grp是我在分组后获得的数据框架" site"是我从中收集条目的列。

如果我在spark-shell中运行,这是有效的。但是当我使用spark-submit运行我的整个代码时。我正在进口:

import org.apache.spark.sql.functions._

这是collect_list方法的位置。

两个Spark版本都是一样的。唯一的区别是spark-shell默认初始化Hivecontext但不在我的流程中。但据我所知,这与hive上下文无关。

这是什么问题?有人在这里也有同样的问题:

http://apache-spark-user-list.1001560.n3.nabble.com/Use-collect-list-and-collect-set-in-Spark-SQL-td26280.html

https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/sql/functions.html

0 个答案:

没有答案