我需要计算每个文档的每个单词的术语频率,所以我想为每个文本文件实现map reduce函数。如何为每个文本文件实现map()和reduce()?
Map-Reduce中的另一个问题是 Map-Reduce将reduce的输出写入单个文件/ user / output / part-0000,项目需要将每个文件处理后的输出写入不同的文本文件中,该怎么做?
答案 0 :(得分:0)
按照以下步骤操作:
numreducers
设置为等于输入文件数setup()
方法中获取文件名,并检索该文件的已分配编号并将其分配给某个静态变量Partitioner
返回此静态变量Reducer将发出'n'个文件。