应用错误收集

DistCp处理大小相同但内容不同的文件之间的同步方式是通过比较其所谓的FileChecksum。 FileChecksum首次引入$out，主要是为了在DistCp中使用。不幸的是，这具有已知的缺点，即在不同的存储实现之间不兼容，甚至在具有不同内部块/块设置的HDFS实例之间不兼容。具体来说，FileChecksum采用的结构是，例如，每块512字节，每块128MB。

由于GCS没有相同的“块”或“块”概念，因此无法对FileChecksum进行任何类似的定义。通常与Hadoop一起使用的所有其他对象存储也是如此; HADOOP-3981在“DistCp和Object Stores”下讨论了这个事实。

也就是说，有一个巧妙的技巧可以用来为HDFS文件定义一个很好的标准化复合CRC表示，它与现有的HDFS部署大部分就地兼容;我已经向DistCp documentation appendix提交了一个概念证明，试图将其添加到上游，之后应该可以使其与GCS一起开箱即用，因为GCS也支持文件级CRC32C

在具有相同大小但内容不同的hdfs上同步文件

1 个答案: