如果你不知道meme是什么意思,你可以阅读这篇文章 readwriteweb
我的问题是如何创建一个meme算法,我有一个网站,汇总了数千个博客帖子,我想找出最受关注的故事。
请参阅上文中的引文
“Meme聚合试图减少 关于信噪比 弄清楚什么是最受关注的 关于新闻(因此,希望,新闻) 最重要的)。“
有谁知道怎么做?,
是他们的任何简单教程吗?
因为我不擅长数学。由于
答案 0 :(得分:1)
没有“正确”的方式来做这样的事情。有不同的方法来实现这一点,你需要选择一个你可以实现/运行和行为的方式。从你理解的简单开始,然后从那里开始。
例如:
Ben Reeves建议“(具有特定标签/总量博客帖子的数量博客帖子)”和pagerank方法。如果这些以适当的方式为您选择主题,请与它们一起使用。
以下是其他一些建议,
您可以为帖子添加权重,这取决于托管网站的受欢迎程度。例如,“纽约时报”上发布的内容应该被认为比Joe Shmoes博客上的内容更受欢迎,并且应该获得更多权重。这类似于页面排名方法,实际上可能没什么区别。
您可以添加时间因素,因此主题的帖子有多快。例如。如果主题B有来自上周的30个帖子,而主题C有10个帖子,那么你可能想要考虑主题C更受欢迎。如果主题D在过去一年中每周有2个帖子怎么办?那么在过去一小时内有5个帖子的主题E呢?
答案 1 :(得分:1)
变量:
计算内容发生的次数。如果它经常发生,那么它就有资格。它也需要最近发生,否则计数不相关。内容需要很好地相关,以避免误报。
查看初学者的Yahoo上下文搜索和关键字API。
答案 2 :(得分:0)
假设您想找到最受欢迎的主题?实际计算可能非常简单,但需要处理的数据量会很大。
(包含特定代码/总量博客帖子的数量博客帖子)=代码的受欢迎程度
显然你需要一个忽略的常用标签/单词列表
然后,与该标签相关的最受欢迎的帖子= 来自包含该标签的其他帖子中最常链接的博文。
此外,更复杂的是,您可以使用pagerank样式计算来计算链接的权重。 http://www.webworkshop.net/pagerank.html - 这实际上是随机浏览时您将登陆特定页面的概率,即最受欢迎的
/ My 2cents
答案 3 :(得分:0)
获取T. Segaran的“编程集体智慧”一书
http://shop.oreilly.com/product/9780596529321.do
它介绍并解释了流行度和排名算法的关键概念,并在Python中提供了全面的例子。