我在AWS Firehose中使用记录转换将流事件数据转换为Parquet,然后再将其转储到数据湖中。在我的测试期间,胶水中的模式经历了几个不同的版本-其中一些是错误的。当我通过firehose发送相同的测试事件时(一次发送30到90),我注意到有些事件没有到达湖泊中,并且错误出现在与我的湖泊相同的存储桶中的format-conversion-failed
目录中。这些文件中的错误通常指向以前版本中的架构错误。
这听起来像Firehose碎片正在保留架构的缓存版本。
更新架构时,如何确保所有Firehose分片将使用新架构?