Hadoop文件大小澄清

时间:2012-04-25 11:33:25

标签: hadoop

我正在澄清使用Hadoop的大文件大小约为200万。我有200万行的文件数据,我想将每行分成单个文件,在Hadoop文件系统中复制它,并使用Mahout执行术语频率的计算。 Mahout以分布式方式使用map-reduce计算。但为此,如果我有一个由200万行组成的文件,我想把每一行作为计算术语频率的文件。我最终将有一个目录,我将有200万个文档,每个文档由单行组成。这会为n文件创建n映射,这里有200万个映射用于进程。这需要大量的时间进行计算。是否有任何替代方式来表示文档以加快计算速度。

2 个答案:

答案 0 :(得分:1)

hadoop有2百万个文件。更重要的是 - 运行200万个任务将有大约2M秒的开销,这意味着几天的小型集群工作。 我认为这个问题具有算法性质 - 如何将计算映射到地图减少范例,就像你将拥有适度数量的映射器一样。请关注您需要的任务,我建议算法。

答案 1 :(得分:0)

Mahout实现了计算文本的TF和IDF。 检查mahout库, 并且在hadoop map reduce框架中将每一行拆分为文件并不是一个好主意。