标签: java hadoop apache-spark
我的一位同事告诉我,他没有看到使用tarball来保存发送到MapReduce作业的数据的任何问题。我对Hadoop和MR / Spark如何协同工作的理解是,首选的hadoop存储格式的设计使得数据文件可以按照Hadoop块大小进行拆分,并散布到MR映射器或Spark工作器(进行分区)。 Tar对我来说是一种非常可怕的格式,因为AFAIK Tar绝对不是为了适应Hadoop及其各种作业引擎的工作方式而设计的。我在这里错过了什么吗?