当整个列表的大小为aprox 1G时,我正在尝试使用aprox大小为100的列表进行并行化。
调用parallelize取决于与Java堆空间有关的“内存不足”。
我有两个问题,是否可以解决这个特定问题?整个数据不是太大,1G似乎并非不可能。我应该只是调整配置文件中的内存大小还是类似的内容?
第二个问题-如果不可能,我可以创建一个RDD列表,当使用原始列表的子列表创建每个RDD时。 因此,如果列表大小为100,则当使用10个对象的子列表创建每个RDD时,我可以创建10个RDD。
这样做之后,是否可以同时在那些RDD上调用“ map”功能? 我不想创建一个for循环并等待每个RDD完成计算之后再转到另一个。
我不需要任何连接,我只需要map-> collect()
谢谢!