应用错误收集

来自kafka流的spark应用需要很长时间才能产生推荐

时间：2017-11-14 10:08:29

标签： java apache-spark apache-kafka matrix-factorization

我正在从kafka流中读取我的spark应用程序中的数据流。我的要求是在用户提出任何请求（搜索/浏览等）时为用户提供产品推荐

我已经有一个包含用户分数的训练模型。我正在使用Java和org.apache.spark.mllib.recommendation.MatrixFactorizationModel模型在我的spark应用程序启动时读取模型一次。每当有任何浏览事件时，我都会调用recommendedProducts（user_id，num_of_recommended_products）API，从我已经训练过的模型中为用户提供推荐。

这个API需要大约3-5秒来生成每个用户的结果，这非常慢，因此我的流处理滞后。我有什么方法可以优化这个API的时间吗？我正在考虑将流持续时间从15秒增加到1分钟作为优化（现在不确定其结果）

1 个答案:

答案 0 :(得分：1)

实时调用recommendProducts，没有多大意义。由于ALS模型只能为用户进行预测（已在训练数据集中看到），因此最好recommendProductsForUser一次，将输出存储在支持按键首次查找的存储中，并在需要时从中获取结果

如果添加存储层不是一个选项，您还可以输出recommendProductsForUser，按ID分区，检查点和缓存预测，然后{id}输入流join。