我正在构建一个像Techmeme这样的博客聚合器,可以从多个博客中找到最受欢迎的帖子。与Techmeme不同,首先,我汇总来自各种RSS源的博客帖子,然后将标题和相关URL保存在数据库中。在那之后,我必须找到最受欢迎的博客帖子。
为了定义热门博客帖子标题,我会跟踪每个博客的每个帖子的Facebook和Twitter分享数量,并根据博客帖子对其分享数进行排名。但这不是最好的解决方案,因为一些博主可以通过欺诈性股票增加他们的共享计数来欺骗。
所以我的问题是我可以用什么标准来定义最受欢迎的帖子是什么? 什么是更好的博客帖子排名算法?
答案 0 :(得分:2)
由于在这种情况下“流行”一词含糊不清,我会根据我的标准来定义帖子的受欢迎程度。结合所有建议的答案,并为博客帖子建立一个合理的声誉系统。例如,基本上我会做这样的事情。
最后,您可以总结所有这些并进行比较。此外,您可以根据帖子大小,帖子中的图像数量等制定一些标准。
答案 1 :(得分:0)
有可能估计不同来源的股份联合分布。很难发现边缘化(即单一)指标的欺诈行为,但是伪造一个整体的“有机”概况更难。
答案 2 :(得分:0)
如何使用PageRank的变体?
这里有更多细节。 http://pr.efactory.de/e-pagerank-algorithm.shtml http://en.wikipedia.org/wiki/PageRank?PHPSESSID=e371f8cacb91eff0c852a0e001893a9a