为什么在使用Hadoop进行流程后数据大小会发生变化?

时间:2016-10-06 20:25:02

标签: apache hadoop mapreduce hdfs bigdata

例如,当我运行单词计数时,输入大小与输出不同。那是因为计数器还是其他东西?

有没有办法预测输出的大小,具体取决于我使用的代码。 任何人都可以向我解释或建议我阅读有用的东西..

1 个答案:

答案 0 :(得分:1)

我相信这一切都取决于你在减速机上所做的转变。

让我们采用单词计数示例,如果你有一个大小为1GB的文件,当你进行单词计数时,reducer输出将是文件中出现的不同单词。

在这种情况下,很明显,您的输出文件大小将缩小。

如果再举一个例子,你只需要将它写回输出文件而不进行任何转换,在这种情况下,你的reducer输出大小应该与你的映射器输入大小相匹配。

我希望它有意义,这完全取决于你在减速机中的逻辑。