有人可以帮助我找到针对以下情况的方法。
我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序,它应该从hdfs读取输入的feed文件并准备一些数据,从hive读取数据并准备一些数据并比较这两个数据集以找出数据的准确性。
最好的方法是什么? 我们怎么能在mapreduce中做到这一点?
注意:我不想将所有数据(从Feed文件收集的数据和从hive收集的数据)保存在内存或缓冲区中。因为我使用的是低配置的机器,无法将大量数据存储在RAM内存中。
谢谢Ram。