我正在使用Spark SQL,并对它的漂亮功能感到满意。
我想在Spark sql支持的SQL语句中添加用户自定义函数(UDF)。我有一个二进制格式的位图数组数据,它可以作为带UDF的布隆过滤器。
我是否可以强制每个工作者实例将整个数据结构(布隆过滤器)保留在内存中并与UDF一起使用?
感谢,
答案 0 :(得分:1)
闭包内引用的每个本地对象都将被简单地序列化并转移相应的任务。除此之外,Spark并没有应用任何特殊的转换 - 如果你有本地的内存数据结构,当你在任务中使用它时它就不会改变。