我需要处理大量的项目。每个项目都以相同的方式处理,并且与其他项目(maps
上的rdd
)无关。
根据程序中的路径,为map
操作中的项目生成不同类型的信息。然后,后续操作可以利用已经存在的信息以最有效的方式执行。
在这里,我必须做出如何保持生成的信息与项目相关的设计选择。
我目前实现这一目标的方法是返回包含传递给map
的原始信息的元组和生成的信息。我不断添加这样的信息,以便最终我可以在一个rdd
中获得所有信息。
这有效,但我发现将信息放在单独的rdds
中会更好。据我所知,无法将map
中生成的信息作为单独的rdd
与传递到map
的相应项目(不使用ID)相关联。因此,无法将两个rdds
或两个rdds
上的操作组合在一起来尊重关联。
spark中是否有一种机制允许您将分布式项目生成的信息存储在单独的rdd
中,但保留与分布式项目的关联?