预测推荐系统中的缺失值

时间:2015-10-30 16:35:16

标签: python numpy sparse-matrix recommendation-engine matrix-factorization

我正在尝试实现非负矩阵分解,以便为推荐引擎项目找到矩阵的缺失值。我正在使用nimfa库来实现矩阵分解。但似乎无法弄清楚如何预测缺失值。 此矩阵中的缺失值由0表示。

a=[[ 1.          0.45643546  0.          0.1         0.10327956  0.0225877 ]
 [ 0.15214515  1.          0.04811252  0.07607258  0.23570226  0.38271325]
 [ 0.          0.14433757  1.          0.07905694  0.          0.42857143]
 [ 0.1         0.22821773  0.07905694  1.          0.          0.27105237]
 [ 0.06885304  0.47140452  0.          0.          1.          0.13608276]
 [ 0.00903508  0.4592559   0.17142857  0.10842095  0.08164966  1.        ]]

import nimfa
model = nimfa.Lsnmf(a, max_iter=100000,rank =4)
#fit the model
fit = model()
#get U and V matrices from fit
U = fit.basis()
V = fit.coef()
print numpy.dot(U,V)

但是给出的ans几乎与a相同,我无法预测零值。 请告诉我使用哪种方法或任何其他可能的实现以及任何可能的资源。

我想使用此函数来最小化预测值的错误。

错误= || a - UV || _F + c * || U || _F + c * || V || _F

其中_F表示frobenius范数

1 个答案:

答案 0 :(得分:1)

之前我没有使用 nimfa 所以我无法回答具体如何做到这一点,但是使用 sklearn 你可以执行预处理器来转换缺失的值,就像这样:

In [28]: import numpy as np

In [29]: from sklearn.preprocessing import Imputer

# prepare a numpy array 
In [30]: a = np.array(a)

In [31]: a
Out[31]: 
array([[ 1.        ,  0.45643546,  0.        ,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.        ,  0.14433757,  1.        ,  0.07905694,  0.        ,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.        ,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.        ,  0.        ,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])
In [32]: pre = Imputer(missing_values=0, strategy='mean')

# transform missing_values as "0" using mean strategy
In [33]: pre.fit_transform(a)
Out[33]: 
array([[ 1.        ,  0.45643546,  0.32464951,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.26600665,  0.14433757,  1.        ,  0.07905694,  0.35515787,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.35515787,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.32464951,  0.27271009,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])

您可以阅读更多here