标签: hadoop pyspark mapreduce hadoop-partitioning
我注意到,当我在 Hadoop Map Reduce 和 PySpark 中聚合来自同一个 csv 文件的数据时,Hadoop 将数据拆分为 2 个分区,而 PySpark 将其拆分为 4 个。因此,我对在 Hadoop 中找到最大分区大小很感兴趣。