我在HDFS上有一个具有以下块大小配置的文件。
状态:健康 总尺寸:1172387607850 B 总数:0 文件总数:1 符号链接总数:0 总区块(已验证):8735(平均区块大小134217241 B) 最少复制的区块:8735(100.0%) 过度复制的块:0(0.0%) 复制不足的块:0(0.0%) 错误复制的块:0(0.0%) 默认复制因子:3 平均块复制:3.0 损坏的方块:0 缺少副本:0(0.0%) 数据节点数:16 机架数:1 FSCK以75毫秒的时间在美国东部时间2018年10月30日星期二02:30:04结束
我尝试使用给定文件通过简单命令“ rdd1 = sqlContext.textFile(“ File HDFS path”)创建RDD” 当我看到分区数时,它等于块数
rdd1.getNumParitions(); --8735
我想知道,如果我试图加载1091 GB数据,则在创建RDD以获得最佳效率时应该提供的分区数量。