所以,我只是刺入野外。我真的不是一个数据挖掘者。我纯粹感兴趣,因为我真的没时间参加这次比赛。
但只是为了它的乐趣,你会如何解决它?
它的工作原理如下:你得到了一大堆电影ID和用户投票。现在给一些用户投票和一部电影,他会给这部电影评分吗?
所述奖品的EDIT网址为http://www.netflixprize.com/
答案 0 :(得分:1)
好的,这是我的想法:
我的统计课程已经消失了一点。但你可以用混合模型进行线性回归,i。即使用虚拟组变量来找出每个用户的个体偏见。
所以,这将是我的第一步,有一个类似的模型:
用户的电影评分=电影评分+用户偏好。
每个用户对所有电影都有相同的偏见。
现在,构建一个这样的图形:每个电影都是一个节点,并且对于每个用户,在用户喜欢的所有电影对之间添加边缘,或者将其权重加一。
在图表上运行加权群集编辑以识别电影群集。调整上面“喜欢”的定义,以获得相当大的聚类。
现在,我们改进了模型:
用户的电影评分=电影评分+用户偏见+集群偏见。
嗯,好吧,我会去预测。
编辑: 更好地进行5聚类。在一个方面,仅为五星投票添加边缘。在下一个,4和5星投票。等等。
现在的模型是:
用户的电影评分=电影评分+一般偏见+五星偏见+ 4-5星偏见+ ... + 5-4-3-2-1星偏见
回归并预测!
答案 1 :(得分:1)
显然我没有足够好的想法,否则我会继续努力而不是在这里发布:)
Wired已经报道了奖项的进展,例如here。大多数团队在一段时间后分享他们的知识,所以他们都非常接近,但似乎(经常)最后的20%将花费80%的努力。
我会尝试解决像Napoleon Dynamite这样不适合任何当前使用的图形的电影问题。你是否喜欢这部电影似乎与你对超人或沉默的羔羊等的感觉没有任何关系...我认为一个足够大的“训练”设置可以解决这个问题,但这样的设置是不可行的,所以相反,我会尝试专注于找到一种方法来聚集这些古怪的电影,然后我会以不同的方式处理它们,它似乎是一种你喜欢或讨厌的电影,你认为没有,所以我不会使用非线性评级算法
答案 2 :(得分:0)
您可以阅读有关以5万美元赢得进度奖的团队以及他们如何在此处完成的工作: http://www.netflixprize.com/assets/ProgressPrize2008_BellKor.pdf
我不了解其中的大部分内容。在比赛之前我会猜到遗传算法本来是最好的方法,但看起来他们没有使用它。
答案 3 :(得分:-1)
所以,也许那些不完全熟悉线性回归的3位读者,像我一样:他们要求将他们的预测提高10%。这很难。这很难,因为我认为仅仅通过其他用户给出的平均选择来估计用户的选择可能已经是一个很好的估计。我想说的是:没有太多的空间可以改进。