ALS模型 - 预测full_u * v ^ t * v等级非常高

时间:2017-01-10 12:32:47

标签: apache-spark apache-spark-mllib apache-spark-ml

我正在预测批量训练模型的流程之间的评级。我正在使用此处列出的方法:ALS model - how to generate full_u * v^t * v?

! rm -rf ml-1m.zip ml-1m
! wget --quiet http://files.grouplens.org/datasets/movielens/ml-1m.zip
! unzip ml-1m.zip
! mv ml-1m/ratings.dat .

from pyspark.mllib.recommendation import Rating

ratingsRDD = sc.textFile('ratings.dat') \
               .map(lambda l: l.split("::")) \
               .map(lambda p: Rating(
                                  user = int(p[0]), 
                                  product = int(p[1]),
                                  rating = float(p[2]), 
                                  )).cache()

from pyspark.mllib.recommendation import ALS

rank = 50
numIterations = 20
lambdaParam = 0.1
model = ALS.train(ratingsRDD, rank, numIterations, lambdaParam)

然后提取产品功能......

import json
import numpy as np

pf = model.productFeatures()

pf_vals = pf.sortByKey().values().collect()
pf_keys = pf.sortByKey().keys().collect()

Vt = np.matrix(np.asarray(pf_vals))

full_u = np.zeros(len(pf_keys))

def set_rating(pf_keys, full_u, key, val):
    try:
        idx = pf_keys.index(key)
        full_u.itemset(idx, val)
    except:
        pass

set_rating(pf_keys, full_u, 260, 9),   # Star Wars (1977)
set_rating(pf_keys, full_u, 1,   8),   # Toy Story (1995)
set_rating(pf_keys, full_u, 16,  7),   # Casino (1995)
set_rating(pf_keys, full_u, 25,  8),   # Leaving Las Vegas (1995)
set_rating(pf_keys, full_u, 32,  9),   # Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
set_rating(pf_keys, full_u, 335, 4),   # Flintstones, The (1994)
set_rating(pf_keys, full_u, 379, 3),   # Timecop (1994)
set_rating(pf_keys, full_u, 296, 7),   # Pulp Fiction (1994)
set_rating(pf_keys, full_u, 858, 10),  # Godfather, The (1972)
set_rating(pf_keys, full_u, 50,  8)    # Usual Suspects, The (1995)

recommendations = full_u*Vt*Vt.T

top_ten_ratings = list(np.sort(recommendations)[:,-10:].flat)

print("predicted rating value", top_ten_ratings)

top_ten_recommended_product_ids = np.where(recommendations >= np.sort(recommendations)[:,-10:].min())[1]
top_ten_recommended_product_ids = list(np.array(top_ten_recommended_product_ids))

print("predict rating prod_id", top_ten_recommended_product_ids)

然而,预测的评级似乎太高了:

('predicted rating value', [313.67320347694897, 315.30874327316576, 317.1563289268388, 317.45475214423948, 318.19788673744563, 319.93044594688428, 323.92448427140653, 324.12553531632761, 325.41052886977582, 327.12199687047649])
('predict rating prod_id', [49, 287, 309, 558, 744, 802, 1839, 2117, 2698, 3111])

这似乎不正确。任何提示赞赏。

1 个答案:

答案 0 :(得分:5)

如果您只关心电影的排名,我认为提到的方法会奏效。如果你想得到一个实际的评级,那么在尺寸/缩放方面似乎有一些东西。

这里的想法是猜测新用户的潜在表现形式。通常,对于已经在分解中的用户i,用户i,你有他的潜在表示u_imodel.userFeatures()中的第i行)并且你使用{{得到他对给定电影(电影j)的评级1}}它基本上乘以model.predict乘以产品u_i的潜在表示。如果您乘以整个v:v_j,则可以立即获得所有预测的评分。

对于新用户,您必须从u_i*v猜测他的潜在代表u_new是什么。 基本上,您需要50个系数来表示您对每个潜在产品因素的新用户亲和力。 为了简单起见,因为它对我的隐式反馈用例来说足够了,我只是使用了点积,基本上将新用户投射到产品潜在因子上:full_u_new给你50个系数,系数我是多少你的新用户看起来像产品潜在因素我。并且它与隐式反馈特别有效。 所以,使用点积将会给你,但它不会被缩放,它会解释你所看到的高分。 为了获得可用的分数,您需要更准确地缩放full_u_new*V^t,我认为您可以使用余弦相似性来获得它,就像它们[这里] https://github.com/apache/incubator-predictionio/blob/release/0.10.0/examples/scala-parallel-recommendation/custom-query/src/main/scala/ALSAlgorithm.scala

一样

@ ScottEdwards2000在评论中提到的方法也很有趣,但却有所不同。您确实可以在训练集中寻找最相似的用户。如果有多个,你可以获得平均值。我不认为它会做得太糟糕,但它是一个非常不同的方法,你需要完整的评级矩阵(找到最相似的用户)。获得一个亲密的用户肯定应该解决扩展问题。如果你设法使两种方法都有效,你可以比较结果!