我们假设用户以1到5的等级投票购买某些电影。这些电影具有流派信息,而电影可以有多种类型。像这样:
Movie A Rating 4
Action/Sci-Fi
Movie B Rating 5
Comedy/Action
Movie C Rating 4
Comedy/Drama
我们希望了解哪种类型喜欢我们的用户。这里我们有结果集:
Genre Movie_Count Average_Rating
----------
Action 2 5
Comedy 2 4.5
SciFi 1 4
Drama 1 4
显然,我们无法用如此小的结果集预测任何事情,但让我们假设我们有一个更大的数据集。
使用这些数据,我们如何对这个用户最喜欢的类型进行排序?简单地计算加权平均值或更复杂的东西?
答案 0 :(得分:1)
我在这里看到的主要问题是:
用户评价平均得分为4的1000部喜剧电影
用户评分平均得分为4.1的10部动作片
你如何订购?
请参阅http://www.evanmiller.org/how-not-to-sort-by-average-rating.html以获取讨论和一种可能的解决方案。
另一个问题是:
如果一部电影既是喜剧又是动作,并且被评为4.0,那它是多少,因为它是喜剧还是动作?
您可以使用期望最大化http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm解决此问题。