我需要一些建议来构建一个好的模型,通过使用Collaborative Filtering
spark来推荐。 official website中有一个示例代码。我也过去了:
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
# Load and parse the data
data = sc.textFile("data/mllib/als/test.data")
ratings = data.map(lambda l: l.split(','))\
.map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))
# Build the recommendation model using Alternating Least Squares
rank = 10
numIterations = 10
model = ALS.train(ratings, rank, numIterations)
# Evaluate the model on training data
testdata = ratings.map(lambda p: (p[0], p[1]))
predictions = model.predictAll(testdata).map(lambda r: ((r[0], r[1]), r[2]))
ratesAndPreds = ratings.map(lambda r: ((r[0], r[1]), r[2])).join(predictions)
RMSE = ratesAndPreds.map(lambda r: ((r[1][0] - r[1][1])**2).mean())**.5)
print("Root Mean Squared Error = " + str(RMSE))
一个好的模型需要RMSE尽可能小。
是不是因为我没有为
ALS.train
方法设置适当的参数,比如rand numIterations等等?或者是因为我的数据集很小以使RMSE变大?
所以任何人都可以帮助我找出导致RMSE变大的原因以及如何解决它。
另外:
正如@eliasah所说,我需要添加一些细节来缩小答案集。让我们考虑一下这种特殊情况:
现在,如果我想建立一个推荐系统来向我的客户推荐音乐。我有他们的曲目,专辑,艺术家和流派的历史比率。显然,这4个类构建了一个层次结构。曲目直接属于专辑,专辑直接属于艺术家,艺术家可能属于多种different
类型。最后,我想使用所有这些信息来选择一些曲目来推荐给客户。
因此,为这些情况构建良好模型并确保使RMSE尽可能小以进行预测的最佳实践是什么。
答案 0 :(得分:4)
正如您上面提到的,随着排名和数量的增加,RMSE会在给定相同数据集的情况下减少。但是,随着数据集的增长,RMSE会增加。
现在,减少RMSE和其他一些类似措施的做法是将评级中的值标准化。根据我的经验,当您事先知道最低和最高评级值时,这非常有效。
此外,您还应考虑使用RMSE以外的其他措施。在进行矩阵分解时,我发现有用的是计算Frobenius Norm of ratings - 预测然后除以Frobenius Norm的评级。通过这样做,你得到预测的相对误差。原始评分。
以下是此方法的spark代码:
# Evaluate the model on training data
testdata = ratings.map(lambda p: (p[0], p[1]))
predictions = model.predictAll(testdata).map(lambda r: ((r[0], r[1]), r[2]))
ratesAndPreds = ratings.map(lambda r: ((r[0], r[1]), r[2])).join(predictions)
abs_frobenius_error = sqrt(ratesAndPreds.map(lambda r: ((r[1][0] - r[1][1])**2).sum())))
# frobenius error of original ratings
frob_error_orig = sqrt(ratings.map(lambda r: r[2]**2).sum())
# finally, the relative error
rel_error = abs_frobenius_error/frob_error_orig
print("Relative Error = " + str(rel_error))
在此误差测量中,误差越接近零,模型就越好。
我希望这会有所帮助。
答案 1 :(得分:1)
我做了一点研究,结论是:
当rand和iteration增长时,RMSE将减少。但是,当数据集的大小增加时,RMSE将增加。从上述结果来看,rand大小将更显着地改变RMSE值。
我知道这还不足以得到一个好模特。祝更多想法!!!
答案 2 :(得分:0)
在pyspark中使用它来查找均方根误差(rmse)
from pyspark.mllib.recommendation import ALS
from math import sqrt
from operator import add
# rank is the number of latent factors in the model.
# iterations is the number of iterations to run.
# lambda specifies the regularization parameter in ALS
rank = 8
num_iterations = 8
lmbda = 0.1
# Train model with training data and configured rank and iterations
model = ALS.train(training, rank, num_iterations, lmbda)
def compute_rmse(model, data, n):
"""
Compute RMSE (Root Mean Squared Error), or square root of the average value
of (actual rating - predicted rating)^2
"""
predictions = model.predictAll(data.map(lambda x: (x[0], x[1])))
predictions_ratings = predictions.map(lambda x: ((x[0], x[1]), x[2])) \
.join(data.map(lambda x: ((x[0], x[1]), x[2]))) \
.values()
return sqrt(predictions_ratings.map(lambda x: (x[0] - x[1]) ** 2).reduce(add) / float(n))
print "The model was trained with rank = %d, lambda = %.1f, and %d iterations.\n" % \
(rank, lmbda, num_iterations)
# Print RMSE of model
validation_rmse = compute_rmse(model, validation, num_validation)
print "Its RMSE on the validation set is %f.\n" % validation_rmse