我刚刚阅读了即将发布的Hadoop 3.0中的Erasure Coding HDFS功能。如果我理解正确,则块内的数据被分成更小的单元(条带化单元),然后分析相似性。我想这种类似于降维的方法:模拟性将存储在所谓的奇偶校验单元中,因为模拟模式不需要多次保存,但可以参考,这样可以提高存储效率。
但是,如果有许多可以比较的剥离单元,则擦除编码可能只有效率,因此可以尽可能频繁地引用相似性。但是,添加新数据/剥离单元将导致需要更改所有奇偶校验单元。由于更新不是HDFS的一部分(WORM =一次写入,多次读取),可能需要重写所有奇偶校验单元。
擦除编码会导致大量的I / O需求,还是我混淆了什么?