为生产环境构建刮板

时间:2019-12-24 02:23:29

标签: machine-learning web-scraping production-environment dev-to-production

我正在基于我从网站上抓取的信息创建机器学习模型。我想将应用程序部署在服务器上,并每周重新训练模型。

我很乐意使用抓取的数据来构建NoSQL数据库,在另一个脚本中检索数据,并构建初始模型,但是在构建代码以使其在生产环境下工作时遇到了一些问题:

  1. 构建仅抓取新数据的抓取器的最佳方法是什么?我正在尝试建立一个if语句来检查当前URL是否已在数据库中,但是我担心一旦有很多记录,它将无法扩展。
  2. 生产后重新训练模型的最有效方法是什么?

0 个答案:

没有答案