dfs.blocksize,file.blocksize,kfs.blocksize等在hadoop mapreduce作业中有什么影响?

时间:2014-08-06 09:54:40

标签: hadoop mapreduce

当我检查hadoop(版本0.21.0)mapreduce作业的job.xml文件时,我发现存在多个blocksize设置:

  • dfs.blocksize = 134217728(即128MB)
  • file.blocksize = 67108864(即64MB)
  • kfs.blocksize = 67108864
  • s3.blocksize = 67108864
  • s3native.blocksize = 67108864
  • ftp.blocksize = 67108864

我期待一些答案来解释以下相关问题:

  1. 在此背景下,dfsfilekfss3等意味着什么?
  2. 他们之间有什么不同?
  3. 运行mapreduce作业时有什么影响?
  4. 非常感谢!

1 个答案:

答案 0 :(得分:2)

Map reduce可以处理存储在不同类型存储系统上的数据。上面的设置是所用存储技术的默认块大小。 dfs(分布式文件系统)是我们在hadoop中常用的默认块大小为128MB。其他设置适用于文件(本地),kfs(kosmos分布式文件系统),s3(亚马逊云存储)和ftp(ftp服务器上的文件)。

您可以进一步研究它们,以便更好地理解每个并使用hadoop功能。在运行map reduce工作时,将针对块大小识别用于特定存储技术的设置。 我希望它有所帮助。