我对pyspark中的内存管理有疑问。
我有一个大的只读字典,应该可以由MapReduce中的每个映射器查询。这个全局对象非常大,不适合每个映射器的内存。
实施此用例的最佳做法是什么?到目前为止,我的尝试失败了。
非常感谢,
伊多。
答案 0 :(得分:0)
取决于对象的大小。
shelve
)并分发文件。 Spark具有SparkFiles
机制,可用于此。我必须承认你评论的这一部分:
麻烦我。在这种情况下,我的第一个建议是搜索更好的算法。事实是每个映射器需要在每次迭代中扫描整个字典RDD,