应用错误收集

我的一位同事告诉我，他没有看到使用tarball来保存发送到MapReduce作业的数据的任何问题。我对Hadoop和MR / Spark如何协同工作的理解是，首选的hadoop存储格式的设计使得数据文件可以按照Hadoop块大小进行拆分，并散布到MR映射器或Spark工作器（进行分区）。 Tar对我来说是一种非常可怕的格式，因为AFAIK Tar绝对不是为了适应Hadoop及其各种作业引擎的工作方式而设计的。我在这里错过了什么吗？

带有MapReduce或Spark

0 个答案: