受S3文件存在条件的顺序脚本

时间:2019-01-16 19:29:27

标签: amazon-s3 amazon-ec2

我有三个python脚本。这些应该顺序执行,但要在不同的环境中进行。

  • 脚本1:使用AWS EMR集群生成训练和测试数据集,并将其保存在S3上。
  • 脚本2:使用训练数据训练机器学习模型,并将训练后的模型保存在S3上。 (在AWS GPU实例上执行)
  • script3:根据测试数据和训练有素的模型进行评估,并将结果保存在S3上。 (在AWS GPU实例上执行)

我想自动运行所有这些脚本,而不一一执行它们。我的问题是:

  • 是否存在处理S3文件存在条件的良好做法? (错误容忍等)
  • 如何触发启动GPU实例和EMR集群?

有没有好的方法或工具来处理这种过程?

1 个答案:

答案 0 :(得分:0)

看看https://docs.aws.amazon.com/AmazonS3/latest/dev/NotificationHowTo.html

您可以在存储桶上发生事件时(例如,在创建对象时)配置通知。

您可以将此通知直接附加到AWS lambda函数,该函数如果设置为正确的角色,则可以创建EMR集群和AWS SDK可访问的所有其他资源。