Hadoop中的InputSplit自定义

时间:2013-05-02 11:35:49

标签: hadoop

据我所知,在Hadoop中,大型输入文件会拆分成小文件,并通过map函数在不同的节点中进行处理。我也知道我们可以自定义InputSplit。我想知道的是InputSplit

是否可以进行以下类型的自定义

我有一个大的输入文件进入Hadoop,我想要一个文件的子集,即文件中的一组行与每个输入分割一起。我的意思是大文件的所有数据块应该包含这些行集,无论文件被分割的方式如何。

为了使我的问题更清楚,比如我们需要将输入文件的一部分(比如A)与文件内容的其余部分进行比较,在这种情况下,所有InputSplit都是进入map函数需要有A部分用于比较。 请指导我。

2 个答案:

答案 0 :(得分:2)

理论上,您可以将大文件(A, B, C, D, ...)拆分为拆分(A, B), (A, C), (A, D), ...。但是,您必须为此目的编写大量自定义类。目前,扩展FileSplitInputSplit基本上表示file的分割从位置start开始,并且具有固定的length。对文件的实际访问权限由RecordReader完成,即LineRecordReader。所以你必须实现代码,它不仅会读取实际的分割,还会读取文件的标题(部分A)。

我认为,你正在寻找的方法是不切实际的。记录阅读器仅访问位置(开始,开始+长度)的原因是数据局部性。对于非常大的文件,部分AZ将位于两个不同的节点上。

根据部分A的大小,更好的想法是将此公共部分存储在DistributedCache中。通过这种方式,您可以高效地访问每个映射器中的公共数据。有关详细信息,请参阅javadoc和http://developer.yahoo.com/hadoop/tutorial/module5.html#auxdata

答案 1 :(得分:0)

这是我对Hadoop MapReduce如何工作的简单探索。

假设你有一副纸牌,我们希望按照套装然后按顺序对它们进行分类,就像你得到一个全新的牌组一样。

Hadoop with 1 Mapper / 1 Reducer

你拿甲板并自己订购

Hadoop,带有1个Mapper / 2 Reducers(根据颜色,2种颜色,2个减速器进行映射)

你拿着牌组给我所有的黑牌和其他所有的红牌。我订购了我的卡并将它们还给了你,他也这样做了。你把2放在一起。

Hadoop有2个Mappers / 4 Reducers(根据套装进行映射)

你和我把甲板分成了甲板的一半。我们每个人的甲板上都分成4堆。每个人都穿西装订购。返回4桩,最后一步按他们的要求排序。

所以是的,“reducer”部分中的所有数据都必须有一些共同的部分,这是你基于的地图。可能映射的事情是白天,或者我的情况是颜色或西装。