我对FileInputFormat类的isSplitable()有疑问。根据定义,此方法将限制在输入拆分上创建多个映射器。但映射器的数量基于文件的分割数。就像一个160 MB的文件分为3个分区,分别为64,64和32 MB。将有3个地图任务,每个输入拆分一个。如果我使用false值覆盖isSplitable(),它将限制什么,任何方式将有3个映射器根据输入拆分处理文件。
答案 0 :(得分:0)
如果您不希望拆分数据文件,或者想要一个处理整个文件的映射器。这样一个文件只能由一个映射器处理。在这种情况下,扩展map / reduce inputformat并覆盖isSplitable()方法并返回“false”,因为boolean会帮助你。
将整个文件作为一个块分割和读取是两回事。