应用错误收集

从依赖于hadoop中的另一个文件的文件访问信息

时间：2014-03-04 16:31:27

标签： hadoop mapreduce cloud

Hai我想编写一个MapReduce程序，该程序将两个文件作为输入，（例如： file1：帐户详细信息 file2：Transaction Details）并从file1获取帐户详细信息并从file2访问相应的帐户事务详细信息。如果我们想要访问事务详细信息，我们需要特定的帐户详细信息，这里的文件是相关的。假设两个文件都在一个文件夹中，并且该文件夹作为输入传递给map reduce程序。

先谢谢

2 个答案:

答案 0 :(得分：0)

必须连接两个数据集，这是一种非常常见的情况。检查MapReduce Design Patterns Book有关如何进行连接的信息。这是加入的相应code。另外，请检查Data-Intensive Text Processing with MapReduce以了解连接周围的不同模式。

答案 1 :(得分：0)

这是Hadoop中分布式缓存功能的典型用例。您使用较大的文件作为MapReduce作业的输入，并将较小的文件放在分布式缓存上。这样您就可以从Mapper代码中的两个文件中访问数据。

有关如何使用它的更多信息，请参阅Distributed Cache API。