从依赖于hadoop中的另一个文件的文件访问信息

时间:2014-03-04 16:31:27

标签: hadoop mapreduce cloud

Hai我想编写一个MapReduce程序,该程序将两个文件作为输入,(例如: file1:帐户详细信息 file2:Transaction Details)并从file1获取帐户详细信息并从file2访问相应的帐户事务详细信息。如果我们想要访问事务详细信息,我们需要特定的帐户详细信息,这里的文件是相关的。假设两个文件都在一个文件夹中,并且该文件夹作为输入传递给map reduce程序。

先谢谢

2 个答案:

答案 0 :(得分:0)

必须连接两个数据集,这是一种非常常见的情况。检查MapReduce Design Patterns Book有关如何进行连接的信息。这是加入的相应code。另外,请检查Data-Intensive Text Processing with MapReduce以了解连接周围的不同模式。

答案 1 :(得分:0)

这是Hadoop中分布式缓存功能的典型用例。您使用较大的文件作为MapReduce作业的输入,并将较小的文件放在分布式缓存上。这样您就可以从Mapper代码中的两个文件中访问数据。

有关如何使用它的更多信息,请参阅Distributed Cache API