检索仅数据时的Hadoop性能

时间:2016-12-08 10:45:10

标签: hadoop

我们知道可以通过添加更多数据节点来提高Hadoop的性能。我的问题是:如果我们只想检索数据而不需要处理或分析它,那么添加更多数据节点会有用吗?或者它根本不会提高性能,因为我们只检索操作而没有任何计算或地图减少工作?

1 个答案:

答案 0 :(得分:0)

我将尝试部分回答:

  1. 如果您只从hadoop群集或HDFS检索信息 它类似于linux中的Cat命令,意味着只读取数据 不处理。
  2. 如果您想要一些计算,如SUM,AVG或任何其他聚合 在数据之上的函数然后是REDUCE的概念, 因此Map reduce就会出现。
  3. 所以当您的数据是巨大的时候,hadoop是有用的或值得的 计算也。我认为他们没有性能优势 在HDFS中读取少量数据而不是读取大量数据 HDFS中的数据(只是想想你将数据存储在RDBMS中) 定期,你只能每天查询select *语句, 但是,当您的数据以指数方式增长并且您想要这样做时 计算您的RDBMS查询需要时间来执行。
  4. 要使Map减少在大型数据集上高效工作,您需要     拥有大量的节点和计算能力,具体取决于你的     用例。