应用错误收集

Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

时间：2013-03-21 17:03:36

标签： java hadoop

你好我试图在git存储库上运行map reduce jobs。我想使用map作业首先将所有存储库同时克隆到hdfs，然后在文件上进一步映射reduce作业。我遇到了一个问题，我不知道如何将存储库文件写入hdfs。我见过编写单个文件的例子，但这些文件在mapper之外，只写单个文件。 jgit api只公开一个从文件继承的文件存储库结构，但hdfs使用写为dataoutputstreams的路径。有没有一种很好的方法来转换两者或任何类似的例子？

由于

1 个答案:

答案 0 :(得分：1)

Hadoop Mapper的输入数据必须位于HDFS上，而不能放在本地计算机上或HDFS以外的任何位置。 Map-reduce作业不适用于将数据从一个地方迁移到另一个地方。它们用于处理HDFS上存在的大量数据。我确信您的存储库数据不是HDFS，如果是，那么您不需要在第一时间执行任何操作。所以请记住， map-reduce作业用于处理HDFS（Hadoop文件系统）上已存在的大量数据。