Question

我知道这听起来有点愚蠢。是否有可能以MB或字节为单位获取Spark中每个分区的大小。？？？我有多个文本文件，范围从100MB到300mb。当我阅读时，它正在创建19 Partition。我检查了每个分区中的记录计数。这是不一样的。所以我想以mb / kb为单位获取分区大小。

输入文件总数：3。读取后创建的分区总数：19

到目前为止，我正在执行以下操作：

readData = sc.textFile("file:///C://Book//sampletextdata//data")
print("No Of input Partition :",readData.getNumPartitions())

# Getting Record count in patition
recPerPartitions = readData.mapPartitionsWithIndex(lambda x, it: [(x, sum(1 for _ in it))]).collect()
for tup in recPerPartitions :
    print("Partition ID:",tup[0]," Record Contains:",tup[1])

或者无论如何，我们可以检查当前环境中设置的任何最大分区大小变量。???

更多输入 检查Spark UI后，我得到了每个任务的输入大小

但是。我可以通过编程方式获得相同的商品吗？

我们可以在Spark中获得每个分区的大小吗？

0 个答案: