输入文件总数:3。 读取后创建的分区总数:19
到目前为止,我正在执行以下操作:
readData = sc.textFile("file:///C://Book//sampletextdata//data")
print("No Of input Partition :",readData.getNumPartitions())
# Getting Record count in patition
recPerPartitions = readData.mapPartitionsWithIndex(lambda x, it: [(x, sum(1 for _ in it))]).collect()
for tup in recPerPartitions :
print("Partition ID:",tup[0]," Record Contains:",tup[1])
或者无论如何,我们可以检查当前环境中设置的任何最大分区大小变量。???
更多输入 检查Spark UI后,我得到了每个任务的输入大小
但是。我可以通过编程方式获得相同的商品吗?