我正在尝试简单的双字(字对)计数,我尝试使用简单的“对”方法,现在我只是修改为尝试“条纹”方法,但在mapper的清理例程中,不知何故我的所有键都相同单词对(如在最后一个单词对中!)并且计数。
e.g。文字输入是:
我的名字是foo。 Foo是Hadoop的新手。
在mapper中,我的hashmap如下所示:
((my, name), 1), ((name, is), 1), ((is, foo), 2), ((is, new), 1), ((new, to), 1), ((to, hadoop), 1)
但是在Cleanup例程中,我尝试打印相同的hashmap,它看起来像
((to, hadoop), 1), ((to, hadoop), 1), ((to, hadoop), 2), ((to, hadoop), 1), ((to, hadoop), 1), ((to, hadoop), 1)
我的代码如下:
Map Class:
private HashMap<TextPair, Integer> h = new HashMap<TextPair, Integer>();;
void map(...) :
...
StringTokenizer itr = new StringTokenizer(value.toString());
left = itr.nextToken();
while(itr.hasMoreTokens()) {
right = itr.nextToken();
if(left != null && right!= null) {
**//I have to create new TextPair(key object) each time!**
key.set(new Text(left.toLowerCase()), new Text(right.toLowerCase()));
//If key is there, just do count + 1 else add key with value 1
if(h.containsKey(key)) {
int total = h.get(key) + 1;
h.put(key, total);
} else {
System.out.println("key: "+ key.toString()+ " => 1");
h.put(key, 1);
}
//context.write(key, one);
}
left = right;
}
....
void cleanup(...):
Iterator<Entry<TextPair, Integer>> itr = h.entrySet().iterator();
while(itr.hasNext()) {
Entry<TextPair, Integer> entry = itr.next();
TextPair key = entry.getKey();
int total = entry.getValue().intValue();
System.out.println("--- MAP CLEANUP ---: key: "+ key.toString() + " => Total: "+ total);
context.write(key, new IntWritable(total));
}
...
注意:TextPair是我的自定义键类。 有什么建议吗?
执行Map的清理程序,在完成所有map任务后最后执行?哈希是一种“全局”,这个或我的迭代器出了什么问题?
我必须在散列之前在map()的每次迭代中创建新的TextPair Key对象,这就是问题所在..它已经解决了,但是想知道为什么会这样?我用Python多次使用hash,它很好,没有痛苦,为什么我每次都需要创建新对象,我不明白。
答案 0 :(得分:1)
似乎您不是每次都创建新密钥,而是重用该密钥。所以你在两种情况下得到了相同的分布,第一组中的最后一个键在第二组中的任何地方都使用了。
答案 1 :(得分:0)
我假设你正在使用'Hadoop:The Definitive Guide'中的TextPair类示例?
问题在于使用可变对象作为HashMap的键值是不安全的。 相反,您应该使用不可变键,如基元。 由于指南中的TextPair类示例是可变的,因此在通过键对象放置/获取/删除值时可能会出现问题。
解决此问题的一种方法是每次都创建一个新的TextPair对象,就像您已经做的那样。 另一种解决方法是使用SimpleImmutableEntry类。
我遇到了同样的问题,并通过使用SimpleImmutableEntry实现了一个版本来解决它。