在运行hadoop时,在输入文件夹中说n个文件各占一行,在输入文件夹中有n行文件是否有区别?
如果有n个文件,“InputFormat”是否只将其视为1个连续文件?
答案 0 :(得分:3)
有很大的不同。它经常被称为“小文件问题”,并且与Hadoop期望将巨型输入分成较小任务但不将小输入收集到较大任务中这一事实有关。
看一下Cloudera的这篇博客文章: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
如果您可以避免创建大量文件,请执行此操作。尽可能连接。对于Hadoop,大型可拆分文件更好。
我曾经在netflix数据集上运行过Pig。花了几个小时来处理几场演出。然后我将输入文件(我认为这是每个电影的文件,或每个用户的文件)连接到一个文件中 - 我的结果只需几分钟。