Hadoop顺序数据访问

时间:2014-04-08 15:52:50

标签: hadoop hdfs

根据Hadoop权威指南:

  

HDFS是一个文件系统,用于存储非常大的文件   流式或顺序数据访问模式

什么是流式或顺序数据访问?它将如何减少磁盘的查找时间?

1 个答案:

答案 0 :(得分:11)

这并不是Hadoop特有的。

顺序访问模式是指您按顺序读取数据(通常从开始到结束)。考虑一本书的例子。阅读小说时,使用顺序顺序:从第1页开始,然后转到第2页,依此类推。另一种常见模式称为随机访问。这是当你从一个地方跳到另一个地方时,甚至可能在读取数据时向后跳。对于书籍示例,请考虑字典。你不像读小说那样读它。相反,你在某个地方的中间搜索你的单词。当你查找完这个单词时,你可能会去找另一个单词,这个单词位于你书本打开的地方数百页之外。搜索你应该从哪里开始阅读被称为“寻求”。

当您按顺序访问时,您只需要寻找一次,然后阅读,直到您完成该数据。进行随机访问时,您需要在每次要切换到文件中的其他位置时进行搜索。这在硬盘驱动器上可能会受到相当大的影响,因为在磁盘驱动器上搜索非常昂贵。