Apache Spark通常会输出part-00XXX文件。合并它们或将它们保留在存储上是最佳做法吗? (我正在使用谷歌云存储)
答案 0 :(得分:0)
我想这是一个选择,但我会拒绝,因为:
希望这能回答你的问题
答案 1 :(得分:0)
我想说合并打破了分布式计算的惯例。您可能必须从同一文件中读取并发问题。
但是如果你想进行快速分析,比如说Python的熊猫试试这个:
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._
def merge(srcPath: String, dstPath: String): Unit = {
val hadoopConfig = new Configuration()
val hdfs = FileSystem.get(hadoopConfig)
FileUtil.copyMerge(hdfs, new Path(srcPath), hdfs, new Path(dstPath), false, hadoopConfig, null)
}