在生产中使用数据采集器的推荐API

时间:2017-03-07 11:10:22

标签: google-cloud-dataproc

我目前正在尝试为电子商务网站构建推荐引擎。我遇到了this,其中概述了数据业务的用法。

我还运行Prediction.io,这似乎是构建此类服务的一个简洁项目......虽然目前有点遗弃。

现在我在数据交换文章中提供的解决方案存在的问题是,它无法扩展。 recos的结果存储在Mysql中,我应该使用一些第三方Web服务来公开它们。

现在这可能适用于小型工作负载,但是当我得到例如。 100.000个产品和300.000个用户,并且不断有新的用户和产品进入,我最终会用更新来轰炸数据库,以便跟上所有的变化。我想,Mysql不是最好的解决方案。

我认为将训练有素的模型(在本例中为ALS)部署到运行 on spark集群的Web服务器上,在运行时查询并提供结果会更加健壮。当训练新模型时,它将取代旧模型。

实际上可以做到这一点吗?我可以在数据中心群集上运行自己的应用程序吗?到目前为止,我只能通过gcloud cli工具安排作业,但我无法通过默认的7077端口访问集群。

这是否在DataProc的预期用途范围内,或者更像是“紧缩数据并将其存储为某种类型”

贝斯茨

1 个答案:

答案 0 :(得分:1)

我将提供部分答案:

您对群集的使用方式没有限制。您可以在每个VM上通过ssh [2]安装其他软件,也可以自动安装并使用初始化操作[1]。

您必须修改防火墙设置才能使VM上的端口可访问。但要注意,这会让他们看到世界(不仅仅是你)。一种选择是设置SSH端口转发[3]。

我们通常鼓励短期集群。您可以选择使用Cloud SQL,Cloud Bigtable等,或者使用mySQL /等设置单独的VM。

[1] https://cloud.google.com/dataproc/docs/concepts/init-actions

[2] https://cloud.google.com/compute/docs/instances/connecting-to-instance

[3] https://cloud.google.com/dataproc/docs/concepts/cluster-web-interfaces