应用错误收集

我刚刚阅读了即将发布的Hadoop 3.0中的Erasure Coding HDFS功能。如果我理解正确，则块内的数据被分成更小的单元（条带化单元），然后分析相似性。我想这种类似于降维的方法：模拟性将存储在所谓的奇偶校验单元中，因为模拟模式不需要多次保存，但可以参考，这样可以提高存储效率。

但是，如果有许多可以比较的剥离单元，则擦除编码可能只有效率，因此可以尽可能频繁地引用相似性。但是，添加新数据/剥离单元将导致需要更改所有奇偶校验单元。由于更新不是HDFS的一部分（WORM =一次写入，多次读取），可能需要重写所有奇偶校验单元。

擦除编码会导致大量的I / O需求，还是我混淆了什么？