带有MapReduce或Spark

时间:2017-02-13 16:30:57

标签: java hadoop apache-spark

我的一位同事告诉我,他没有看到使用tarball来保存发送到MapReduce作业的数据的任何问题。我对Hadoop和MR / Spark如何协同工作的理解是,首选的hadoop存储格式的设计使得数据文件可以按照Hadoop块大小进行拆分,并散布到MR映射器或Spark工作器(进行分区)。 Tar对我来说是一种非常可怕的格式,因为AFAIK Tar绝对不是为了适应Hadoop及其各种作业引擎的工作方式而设计的。我在这里错过了什么吗?

0 个答案:

没有答案