如何使用mapreduce处理大量数据集

时间:2014-04-02 15:22:04

标签: hadoop mapreduce hive hdfs bigdata

有人可以帮助我找到针对以下情况的方法。

我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序,它应该从hdfs读取输入的feed文件并准备一些数据,从hive读取数据并准备一些数据并比较这两个数据集以找出数据的准确性。

最好的方法是什么? 我们怎么能在mapreduce中做到这一点?

注意:我不想将所有数据(从Feed文件收集的数据和从hive收集的数据)保存在内存或缓冲区中。因为我使用的是低配置的机器,无法将大量数据存储在RAM内存中。

谢谢Ram。

0 个答案:

没有答案