S3一致性问题

时间:2019-05-22 02:22:24

标签: apache-spark amazon-s3

如果在用新数据更新s3位置后立即发生读取,则无法从S3完全读取数据


我正在使用S3以镶木地板文件格式存储一些数据。每天几个小时后,该数据就会更新(覆盖)。问题在于,当用新数据更新s3位置时发生读取操作时,读取操作会给出部分数据。我尝试填充不同的S3键,然后使用s3 sync命令同步实时s3位置,但是如果在s3同步期间发生读取,仍然会出现部分读取问题。在想这是否是将数据存储到S3的正确方法?

1 个答案:

答案 0 :(得分:0)

您要描述的问题恰恰是由Delta Lake解决,Databricks最近创建并开源的问题。这应该可以最大程度地解决您读取部分数据或陈旧数据的问题。

引用:

相关问题