应用错误收集

我在HDFS上有一个具有以下块大小配置的文件。

状态：健康总尺寸：1172387607850 B 总数：0 文件总数：1 符号链接总数：0 总区块（已验证）：8735（平均区块大小134217241 B）最少复制的区块：8735（100.0％）过度复制的块：0（0.0％）复制不足的块：0（0.0％）错误复制的块：0（0.0％）默认复制因子：3 平均块复制：3.0 损坏的方块：0 缺少副本：0（0.0％）数据节点数：16 机架数：1 FSCK以75毫秒的时间在美国东部时间2018年10月30日星期二02:30:04结束

我尝试使用给定文件通过简单命令“ rdd1 = sqlContext.textFile（“ File HDFS path”）创建RDD” 当我看到分区数时，它等于块数

rdd1.getNumParitions（）; --8735

我想知道，如果我试图加载1091 GB数据，则在创建RDD以获得最佳效率时应该提供的分区数量。

从HDFS文件创建RDD时如何确定要给定的分区数

0 个答案: