应用错误收集

我目前正在尝试为电子商务网站构建推荐引擎。我遇到了this，其中概述了数据业务的用法。

我还运行Prediction.io，这似乎是构建此类服务的一个简洁项目......虽然目前有点遗弃。

现在我在数据交换文章中提供的解决方案存在的问题是，它无法扩展。 recos的结果存储在Mysql中，我应该使用一些第三方Web服务来公开它们。

现在这可能适用于小型工作负载，但是当我得到例如。 100.000个产品和300.000个用户，并且不断有新的用户和产品进入，我最终会用更新来轰炸数据库，以便跟上所有的变化。我想，Mysql不是最好的解决方案。

我认为将训练有素的模型（在本例中为ALS）部署到运行 on spark集群的Web服务器上，在运行时查询并提供结果会更加健壮。当训练新模型时，它将取代旧模型。

实际上可以做到这一点吗？我可以在数据中心群集上运行自己的应用程序吗？到目前为止，我只能通过gcloud cli工具安排作业，但我无法通过默认的7077端口访问集群。

这是否在DataProc的预期用途范围内，或者更像是“紧缩数据并将其存储为某种类型”

贝斯茨

我将提供部分答案：

您对群集的使用方式没有限制。您可以在每个VM上通过ssh [2]安装其他软件，也可以自动安装并使用初始化操作[1]。

您必须修改防火墙设置才能使VM上的端口可访问。但要注意，这会让他们看到世界（不仅仅是你）。一种选择是设置SSH端口转发[3]。

我们通常鼓励短期集群。您可以选择使用Cloud SQL，Cloud Bigtable等，或者使用mySQL /等设置单独的VM。