应用错误收集

我正在使用一个运行Hadoop的旧学校项目来处理MapReduce工作，而我目前仍然试图让一个联接工作。我有2个文件，比如：

文件1：

onion vegetable
potato vegetable
orange fruit
apple fruit
banana fruit
carrot vegetable
melon fruit

，第二个文件是文件2：

1 apple
2 banana
3 carrot
4 orange
5 melon
6 onion

我想要的是作为蔬菜的物品的指数，因此预期的物品是：

3
6

我不确定如何解决这个问题。我以前从未使用过plainjane Hadoop，所以我不确定我是否遗漏了一些简单的东西。请注意，文件2和文件1可以包含在另一个文件中没有对应匹配的条目。

指针会有所帮助。