寻求时间对SSD上托管的HDFS有影响吗?

时间:2017-02-14 09:56:20

标签: hdfs ssd

HDFS具有较大的块大小(64 MB),其中一个原因是,块大小较小的HDD的查找时间变得更高,这就是块大小更大的原因(另一个原因是名称节点上的索引大小)增加,但不要在答案中讨论)

现在,当我们使用SSD时,寻求时间与HDD相比真的很重要并且重要吗?

1 个答案:

答案 0 :(得分:2)

你是正确的,寻找时间不是SSD的问题。

在HDD中,寻道时间通常在 0.2到0.8 ms 之间。对于SSD,没有移动部件,因此寻道时间的测量仅测试准备存储设备中的存储器上的特定位置的电子电路。典型的SSD的寻道时间介于 0.08和0.16 ms 之间。

但寻找时间并不是决定块大小计算的唯一标准。 HDFS通常用作Hadoop等分布式系统的存储FS。 Hadoop和其他分布式处理生态系统致力于分而治之的概念。这就是将任务划分为更小的片段,并使用 商品硬件 在多台计算机上处​​理它们。

如果将块大小设置得过大会发生什么事情,请注意SSD的寻道时间比HDD少一个数量级?

这实质上意味着更低的并行度。对于具有64 MB块大小的640 MB的文件,可以在10台机器之间划分的处理任务可以限制为具有256 MB的块大小的3个并行映射器。这实际上将转化为更长时间运行的任务,这最终将导致更慢的作业。当手头的任务是计算密集型过程时,事情会变得更糟。

如果将块大小设置得太小,会发生什么事情,因为SSD的寻道时间比HDD少一个数量级,会发生什么?

  1. 现在,在这种情况下,由于块大小较少,您将拥有大量任务,并且会在群集上生成大量JVM,从而导致群集利用率低下。
  2. 您的NameNode将被大量信息所淹没,即使是小文件,也可能会创建很多块。现在可能转化为拥有更强大的NameNode或其他一些解决方案,如NameNode federarion。
  3. 所以关键是肯定我有SSD。但请适当选择块大小!否则,最终可能会出现具有SSD和大块大小的 较慢的 群集,而不是现有的HDD实现和适当的块大小

    希望有所帮助!