应用错误收集

我在R上写一个mapper函数（使用Rhipe for map-reduce）。 mapper函数应该读取文本文件并创建Corpus。现在，R已经有了一个名为tm的包，它可以进行文本挖掘并创建DocumentMatrix。如果您想了解更多关于`tm＆＃39;的信息，请查看here。

但是在map-reduce中使用这个包的问题是矩阵被转换为列表，并且很难在Reduce中创建一个矩阵，从这个混乱的＆＃34;列表＆＃34;。我在 this website 中找到了使用map-reduce创建语料库的算法，但我对如何找到映射器文档的名称或某些唯一标识感到有些困惑。

对于我拥有的196MB文本文件的文件，hadoop产生了4个映射器（blocksize = 64MB）。如何对键值对进行分类，以便映射器将对发送为((words@document),1)。这篇文章很精美地解释了它。但是，我很难理解映射器如何区分它在多个映射器之间读取的文档编号。据我所知，映射器计数器仅适用于相应的映射器。有人关心详细说明，或提供一些关于我应该做什么的建议吗？

在mapper中用文档编号区分字数 - Hadoop？

1 个答案: