我目前正在处理机器学习问题,并在 Dev 环境中创建了一个模型,其中数据集的数量级很少,几十万。如何将模型传输到 Production 环境,其中数据集非常大,数十亿。
是否有任何一般推荐的方式来运输机器学习模型?
答案 0 :(得分:0)
取决于您使用的开发平台。我知道DL4J使用Hadoop Hyper Parameter服务器。我用C ++编写我的ML编程并使用我自己生成的数据,TensorFlow和其他人使用使用Python压缩和解压缩的数据。对于实时数据,我建议使用其中一个Boost库,因为我发现它在处理大量RT数据时非常有用,例如使用OpenCV进行图像处理。但我想必须有一套适合您数据的等效库。使用C ++或Python可以轻松处理CSV数据。实时(Boost),图像(OpenCV),csv(Python)或者您可以编写一个程序,使用Bash(Tricky)将数据传输到您的程序中。您可以让它以某种方式缓冲数据,然后定期将数据提供给ML程序,然后检索数据并将其存储在Mysql数据库中。听起来你需要一个数据服务器或一个数据管理程序,所以ML算法只能解决它的大块数据。希望有所帮助。