Spark是否支持所有节点上的用户定义的内存数据结构?

时间:2016-03-04 03:02:10

标签: apache-spark apache-spark-sql

我正在使用Spark SQL,并对它的漂亮功能感到满意。

我想在Spark sql支持的SQL语句中添加用户自定义函数(UDF)。我有一个二进制格式的位图数组数据,它可以作为带UDF的布隆过滤器。

我是否可以强制每个工作者实例将整个数据结构(布隆过滤器)保留在内存中并与UDF一起使用?

感谢,

1 个答案:

答案 0 :(得分:1)

闭包内引用的每个本地对象都将被简单地序列化并转移相应的任务。除此之外,Spark并没有应用任何特殊的转换 - 如果你有本地的内存数据结构,当你在任务中使用它时它就不会改变。