应用错误收集

Spark是否支持所有节点上的用户定义的内存数据结构？

时间：2016-03-04 03:02:10

标签： apache-spark apache-spark-sql

我正在使用Spark SQL，并对它的漂亮功能感到满意。

我想在Spark sql支持的SQL语句中添加用户自定义函数（UDF）。我有一个二进制格式的位图数组数据，它可以作为带UDF的布隆过滤器。

我是否可以强制每个工作者实例将整个数据结构（布隆过滤器）保留在内存中并与UDF一起使用？

感谢，

1 个答案:

答案 0 :(得分：1)

闭包内引用的每个本地对象都将被简单地序列化并转移相应的任务。除此之外，Spark并没有应用任何特殊的转换 - 如果你有本地的内存数据结构，当你在任务中使用它时它就不会改变。