我们可以在Spark中获得每个分区的大小吗?

时间:2020-08-20 14:09:12

标签: apache-spark pyspark

我知道这听起来有点愚蠢。是否有可能以MB或字节为单位获取Spark中每个分区的大小。??? 我有多个文本文件,范围从100MB到300mb。当我阅读时,它正在创建19 Partition。我检查了每个分区中的记录计数。这是不一样的。所以我想以mb / kb为单位获取分区大小。

输入文件总数:3。 读取后创建的分区总数:19

到目前为止,我正在执行以下操作:

readData = sc.textFile("file:///C://Book//sampletextdata//data")
print("No Of input Partition :",readData.getNumPartitions())

# Getting Record count in patition
recPerPartitions = readData.mapPartitionsWithIndex(lambda x, it: [(x, sum(1 for _ in it))]).collect()
for tup in recPerPartitions :
    print("Partition ID:",tup[0]," Record Contains:",tup[1])

或者无论如何,我们可以检查当前环境中设置的任何最大分区大小变量。???

更多输入 检查Spark UI后,我得到了每个任务的输入大小

enter image description here

但是。我可以通过编程方式获得相同的商品吗?

0 个答案:

没有答案
相关问题