Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

时间:2013-03-21 17:03:36

标签: java hadoop

你好我试图在git存储库上运行map reduce jobs。我想使用map作业首先将所有存储库同时克隆到hdfs,然后在文件上进一步映射reduce作业。我遇到了一个问题,我不知道如何将存储库文件写入hdfs。我见过编写单个文件的例子,但这些文件在mapper之外,只写单个文件。 jgit api只公开一个从文件继承的文件存储库结构,但hdfs使用写为dataoutputstreams的路径。有没有一种很好的方法来转换两者或任何类似的例子?

由于

1 个答案:

答案 0 :(得分:1)

Hadoop Mapper的输入数据必须位于HDFS上,而不能放在本地计算机上或HDFS以外的任何位置。 Map-reduce作业不适用于将数据从一个地方迁移到另一个地方。它们用于处理HDFS上存在的大量数据。我确信您的存储库数据不是HDFS,如果是,那么您不需要在第一时间执行任何操作。所以请记住, map-reduce作业用于处理HDFS(Hadoop文件系统)上已存在的大量数据。