我正在播放一张大地图(~6-10 GB)。我正在使用sc.broadcast(prod_rdd)来做到这一点。但是,我不确定广播是仅针对小数据/文件而不是针对我拥有的大型对象。如果是前者,推荐的做法是什么?一种选择是使用NoSQL数据库,然后使用它进行查找。一个问题是我可能不得不放弃性能,因为我将通过单个节点(区域服务器或其他任何等效物)。如果有人对这些设计选择的性能影响有任何了解,那将非常感激。
答案 0 :(得分:0)
我想知道你是否可以使用mapPartitions并为每个分区读取一次地图而不是广播它?