Mahout推荐者:什么相对偏好值适合GenericUserBasedRecommender?

时间:2012-08-31 04:48:31

标签: machine-learning mahout recommendation-engine

在mahout中,我正在设置一个GenericUserBasedRecommender,现在非常简单,典型的设置。

在为项目生成“首选项”值时,我们有以下5个数据点:

积极的兴趣

  • 用户转换项目(最高可能的兴趣标志)
  • 正常(用户表达了兴趣,例如按钮)
  • 间接表达兴趣(点击,光标移动,测量“眼球”)

负面兴趣

  • 无差异(用户在对其他项目激活时忽略的项目,模糊的表达不感兴趣)
  • 主动不喜欢(大拇指朝下,从我的视野中删除项目等)

在我应该表达这些不同属性的范围内,让我们使用1-100比例进行讨论?

  • 我应该保持“主动不喜欢”和“冷漠”聚集在一起,例如分别在1和5,所有喜欢聚集在90-100范围内吗?
  • 靠近中心应该'冷漠'和'间接表达兴趣'吗?如同在20-35范围内的'冷漠'和在60-70范围内的'间接类似'?
  • “用户转换”是否应该吹掉比例尺,并且比其他人更高的头尾?如:'用户转换'@ 100,'次要喜欢'@~ 65,'不喜欢'聚集在1-10范围内?
  • 在1-100的范围内,50是有效的“空”,还是相当于没有数据点?

我知道最终的答案在于试验和错误以及我们数据的意义,但就算法而言,我试图理解我需要在什么时候提示兴趣和不感兴趣之间的尺度。算法正常运行。

1 个答案:

答案 0 :(得分:3)

实际范围无关紧要,不适用于此实施。 1-100没关系,0-1可以,等等。这里的相对值非常重要。

这些值通过简单(线性)加权平均值估算。因此,响应应该是“线性的”。如果行动X的得分比行动Y高2倍,那么它应该与直觉相匹配,那么X应该是现实生活中两倍兴趣的指标。

一个体面的起点是简单地根据频率调整它们的大小。如果点击转化率为2%,您可能会获得价值2%转化的点击次数。

我会忽略你提出的“无差异”信号。使用它可能太吵了。