从HDFS文件创建RDD时如何确定要给定的分区数

时间:2018-10-30 11:23:01

标签: csv pyspark

我在HDFS上有一个具有以下块大小配置的文件。

状态:健康  总尺寸:1172387607850 B  总数:0  文件总数:1  符号链接总数:0  总区块(已验证):8735(平均区块大小134217241 B)  最少复制的区块:8735(100.0%)  过度复制的块:0(0.0%)  复制不足的块:0(0.0%)  错误复制的块:0(0.0%)  默认复制因子:3  平均块复制:3.0  损坏的方块:0  缺少副本:0(0.0%)  数据节点数:16  机架数:1 FSCK以75毫秒的时间在美国东部时间2018年10月30日星期二02:30:04结束

我尝试使用给定文件通过简单命令“ rdd1 = sqlContext.textFile(“ File HDFS path”)创建RDD” 当我看到分区数时,它等于块数

rdd1.getNumParitions(); --8735

我想知道,如果我试图加载1091 GB数据,则在创建RDD以获得最佳效率时应该提供的分区数量。

0 个答案:

没有答案