hadoop - 如何使用mapreduce处理大量数据集

有人可以帮助我找到针对以下情况的方法。

我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序，它应该从hdfs读取输入的feed文件并准备一些数据，从hive读取数据并准备一些数据并比较这两个数据集以找出数据的准确性。

最好的方法是什么？我们怎么能在mapreduce中做到这一点？

注意：我不想将所有数据（从Feed文件收集的数据和从hive收集的数据）保存在内存或缓冲区中。因为我使用的是低配置的机器，无法将大量数据存储在RAM内存中。

谢谢Ram。