我正在使用一个运行Hadoop的旧学校项目来处理MapReduce工作,而我目前仍然试图让一个联接工作。我有2个文件,比如:
文件1:
onion vegetable
potato vegetable
orange fruit
apple fruit
banana fruit
carrot vegetable
melon fruit
,第二个文件是 文件2:
1 apple
2 banana
3 carrot
4 orange
5 melon
6 onion
我想要的是作为蔬菜的物品的指数,因此预期的物品是:
3
6
我不确定如何解决这个问题。我以前从未使用过plainjane Hadoop,所以我不确定我是否遗漏了一些简单的东西。请注意,文件2和文件1可以包含在另一个文件中没有对应匹配的条目。
指针会有所帮助。