什么是文件的最小数据大小才能看到hadoop的好处?

时间:2014-10-27 07:34:58

标签: hadoop mapreduce bigdata

我对这个主题做了很多研究,但对找到的答案还不满意。有人说它并不仅仅取决于尺寸,还有很多其他因素会影响,而有些人则认为它需要在几TB的尺寸范围内才能看到hadoop的真实本质。那么,测试hadoop在类似java程序上运行的最小输入数据大小是多少?

1 个答案:

答案 0 :(得分:3)

确实,这取决于不同的事情。我想这至少取决于以下几点:

  • 文件大小
  • 数据类型和格式
  • 群集大小和性能
  • 群集之间的网络连接
  • 计算和分析的类型

一般而言,您拥有的数据越多,数据越复杂,与“常规”相比,Hadoop的表现越好。 Java程序。我无法给你一些限制。

来自" Hadoop买家指南的定义" (罗伯特·施奈德(Robert D. Schneider))关于术语"大数据"的小书。应该给你一些指导:

  

大数据倾向于描述以下一个或多个特征

     
      
  • 包含大量信息
  •   
  • 包含各种数据类型和格式
  •   
  • 由不同来源生成
  •   
  • 长期保留
  •   
  • 利用新的创新应用程序
  •