我们看到,通常,firehose保持顺序顺序,但是当我们增加firehose的吞吐量时,它将生成多个文件并中断顺序顺序,因为放置请求被随机(或轮循)馈送到多个分片中,每个分片都有单独的输出
例如,具有10个分片的firehose将每分钟至少输出10个文件(假设缓冲时间为60秒)。这10个文件不会在同一时间击中S3,存在一些时差。我们需要保持顺序,因此,如果可以将所有这10个文件连接起来,则可以按顺序对文件重新排序。即使我们将缓冲区间隔增加到5分钟,即使这样,由于缓冲区大小的限制,我们也无法确定输出是否总是在5分钟之后。
我们的问题是,我们无法识别来自同一组输出的10个文件。我们如何识别同一批次的输出文件?