我们已经构建了第一个版本的服务,需要接收图像和pdf文件,然后对每个文件执行大量处理,并为我们构建的Web和移动客户端提供多个已调整大小的变体。
在处理方面,我们执行:
在对整个管道进行连续测试时,大约需要18分钟来处理大约120张图像。
我们正试图大幅减少这段时间。有一件事当然是并行进行各种处理,只有少数依赖,例如,我们无法处理图像处理/机器学习步骤,直到生成几个关键变体。
从架构的角度来看,我们希望从Web层卸载所有处理,但也需要将图像提供给Web /移动客户端。我们一直在调查像openmpi,hadoop,zeromq这样的东西,用于并行化,以及用于解决存储/扩展问题的hdfs,gluster,lustre。
寻找可以拼接在一起的任何参考架构或工具,以便我们可以逐步改进我们的设置。
答案 0 :(得分:0)
那么哪些图像和PDF处理工具用于120张图像?!? (您可以在[存储],[hadoop]和[openmpi]中思考和计划您想要的所有内容 - 除非您的图像和PDF处理工具足够快,否则您的瓶颈会被找到那里。)