pyspark-调用并行处理大型数据集将永远花费

时间:2019-01-03 16:12:24

标签: python apache-spark pyspark

当整个列表的大小为aprox 1G时,我正在尝试使用aprox大小为100的列表进行并行化。

调用parallelize取决于与Java堆空间有关的“内存不足”。

我有两个问题,是否可以解决这个特定问题?整个数据不是太大,1G似乎并非不可能。我应该只是调整配置文件中的内存大小还是类似的内容?

第二个问题-如果不可能,我可以创建一个RDD列表,当使用原始列表的子列表创建每个RDD时。 因此,如果列表大小为100,则当使用10个对象的子列表创建每个RDD时,我可以创建10个RDD。

这样做之后,是否可以同时在那些RDD上调用“ map”功能? 我不想创建一个for循环并等待每个RDD完成计算之后再转到另一个。

我不需要任何连接,我只需要map-> collect()

谢谢!

0 个答案:

没有答案