我们有一个数据管道,该数据管道从s3读取数据,并使用python脚本(在流程图中圈出)进行一些数据处理,该脚本涉及一整堆json文件的拆分和合并,并将相似的条目分为不同的文件,将它们复制到另一个s3存储桶中。有一个SQS侦听源s3存储桶,脚本获取文件名并将文件名从s3复制到每10分钟处理一次。
所有此拆分合并过程都在单个主机中进行。我们预计流量会激增,并希望扩大这一过程。
我们正在寻找的一个选项是使用内部调度程序工具从多个主机运行此过程,并将读取的消息在SQS中变为不可见,从而使它们仅被读取一次。我们尚未对此进行试验,但是如果可以采用其他方法完成,则希望提出任何建议。