我正在为网站上的类别个人评分建立一个得分手。
输入:用户ID,类别
输出:用户ID,score_cat_1,score_cat_2等...
得分为10分。
我的计划是首先为每个用户计算每个类别的点击次数,然后将结果除以分位数(可能是一千),最后使用每个类别分位数的聚类算法将它们包含在10个聚类中,将被订购,并给出费率。
这个想法是将在同一个群集中靠近的分位数组合在一起,得到一个更有趣的分数而不仅仅是说" 10%最好的答题器得到10,接下来的10%得到9等等。 ..
我的问题如下: 你认为这是一个好主意吗?有更自然,更准确的方法吗? - 2-群集可能太小,我无法保证每个群集的基数。