创建图像处理管道

时间:2017-10-12 21:38:41

标签: image-processing pipeline luigi

我正在制作一些非常简单的图像处理步骤。 以下是步骤:

  1. 从aws s3下载特定ID
  2. 的图像
  3. 将图片从gif或其他任何内容重新格式化为jpg
  4. 检查图像大小
  5. 如果可能的话,调整图片大小(只是想到它:上采样/下采样图像 - 不确定该步骤即将到来)
  6. 对图像进行分类并更新数据库信息
  7. 获取下一个ID并重复1。
  8. 如果我必须快速实现它而不考虑我只会为每个步骤编写一个带有子函数的简单python脚本(如果出现问题则抛出异常 - 一些步骤很好(例如)其他步骤(5) 。)是必要的。)

    我听说过luigi和流水线,并且想知道这是否是一个用例。

    使用像luigi或其他东西这样的好处会对我试图处理的问题有最佳实践吗?

    现在给你一些数字我有大约20GB的数据和超过100k的图像。每天大约有10k +图像需要处理。

    非常感谢!

1 个答案:

答案 0 :(得分:0)

如果您计划使用EC2实例,则使用工作流程编排框架(例如luigi和pipelining)是有意义的。

但是,使用Lambda和Step Functions可以在AWS中使用更好的方法。在这里,您可以在每个步骤中使用图像转换逻辑设计事件驱动的工作流,而步骤功能通过可视化管理状态机,这是可固有的可扩展性。

您可以按如下方式设计事件驱动流程。

将图片上传到S3 - >触发步骤功能工作流程 - >回写S3