我很好奇如何对排名算法的数字进行标准化
假设我想根据重要性对链接进行排名,我有两列可以使用
所以表格看起来像
url |评论|视图
现在我想将评论排在高于观看次数的位置,所以我首先考虑做评论* 3或其他东西来加权,但是如果有大量的观点数量如40,000且只有4条评论那么评论权重就会被淘汰。
所以我认为我必须将这些分数标准化为一个更平等的比赛场地才能加权。有关通常如何做的任何想法或指示?
感谢
答案 0 :(得分:5)
对于每个网址,您可以先将评论和观看次数标准化为百分位数。例如,
comment_percentile = (comments - min(comments)) / (max(comments) - min(comments))
views_percentile = (views - min(views)) / (max(views) - min(views))
然后,您可以为每个百分位值指定权重以计算总分。
url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile)
如果值聚集到范围的一端,则其他策略可能涉及消除异常值。
答案 1 :(得分:1)
重要性实际上是一种通知用户他对论坛主题或博客点感兴趣的方式。在这种情况下,您不能只用不同的因子乘以两个数字并添加:)
对于有2000个观点且只有一个评论的博客文章,您能说些什么?好吧,也许这是一个垃圾邮件,或者它被网络爬虫查看,或者它很无聊,没有人决定评论它。
在这种情况下,我们可能希望查看评论与观看的比率。我的原帖会有1/2000的“利息率”,而这篇帖子现在有28个观点和1条评论,它的得分为1/28。
最大比例获胜。顺便说一下,如果你的比率超过一个......好吧,开始寻找错误:)
答案 2 :(得分:0)
几周前在这个SO主题中讨论了类似的问题:"Algorithm to calculate a page importance based on its views / comments"。
我会给出我在那里提供的相同建议:对网页的评论/视图计数的代表性分布使用linear regression来计算加权函数。