我正在阅读有关Big Data和Hadoop的教程,我在HDFS上找到了这两点
流式数据访问:读取整个数据集的时间比读取第一个数据集的延迟时间更重要。 HDFS基于一次写入和多次读取模式构建。
&安培;
低延迟数据访问:需要极少时间访问第一个数据的应用程序不应使用HDFS,因为它会重视整个数据而不是获取第一个记录的时间。
我很困惑,因为第一个说读取整个数据集的时间更重要第二个说 ...不应该使用HDFS,因为它重视整个数据< / em>的
我不明白所期待的是什么?我是Hadoop的新手。
答案 0 :(得分:0)
流式数据访问:
HDFS基于“一次写入,多次读取”的原则。 主要重点是以最快的方式读取完整的数据集比花时间从数据集中获取单个记录更重要。
根据Hadoop:权威指南
MapReduce基本上是一个批处理系统,不适合交互式分析。您无法运行查询并在几秒或更短的时间内恢复结果。查询通常需要几分钟或更长时间,因此最适合离线使用,在处理循环中没有人坐等待结果。
MapReduce非常适合需要以批处理方式分析整个数据集的问题。 RDBMS适用于点查询或更新,其中数据集已编制索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce适合数据写入一次并多次读取的应用程序,而关系数据库适用于不断更新的数据集。
延迟:请参阅下面的What is low latency access of data?