如何创建MEME算法?

时间:2009-05-15 23:56:36

标签: algorithm aggregate-functions blogs

如果你不知道meme是什么意思,你可以阅读这篇文章 readwriteweb

我的问题是如何创建一个meme算法,我有一个网站,汇总了数千个博客帖子,我想找出最受关注的故事。

请参阅上文中的引文

  

“Meme聚合试图减少   关于信噪比   弄清楚什么是最受关注的   关于新闻(因此,希望,新闻)   最重要的)。“

有谁知道怎么做?,

是他们的任何简单教程吗?

因为我不擅长数学。

由于

4 个答案:

答案 0 :(得分:1)

没有“正确”的方式来做这样的事情。有不同的方法来实现这一点,你需要选择一个你可以实现/运行和行为的方式。从你理解的简单开始,然后从那里开始。

例如:

Ben Reeves建议“(具有特定标签/总量博客帖子的数量博客帖子)”和pagerank方法。如果这些以适当的方式为您选择主题,请与它们一起使用。

以下是其他一些建议,

您可以为帖子添加权重,这取决于托管网站的受欢迎程度。例如,“纽约时报”上发布的内容应该被认为比Joe Shmoes博客上的内容更受欢迎,并且应该获得更多权重。这类似于页面排名方法,实际上可能没什么区别。

您可以添加时间因素,因此主题的帖子有多快。例如。如果主题B有来自上周的30个帖子,而主题C有10个帖子,那么你可能想要考虑主题C更受欢迎。如果主题D在过去一年中每周有2个帖子怎么办?那么在过去一小时内有5个帖子的主题E呢?

答案 1 :(得分:1)

变量:

  • 计数
  • 时间
  • 内容

计算内容发生的次数。如果它经常发生,那么它就有资格。它也需要最近发生,否则计数不相关。内容需要很好地相关,以避免误报。

查看初学者的Yahoo上下文搜索和关键字API。

答案 2 :(得分:0)

假设您想找到最受欢迎的主题?实际计算可能非常简单,但需要处理的数据量会很大。

(包含特定代码/总量博客帖子的数量博客帖子)=代码的受欢迎程度

显然你需要一个忽略的常用标签/单词列表

然后,与该标签相关的最受欢迎的帖子= 来自包含该标签的其他帖子中最常链接的博文。

此外,更复杂的是,您可以使用pagerank样式计算来计算链接的权重。 http://www.webworkshop.net/pagerank.html - 这实际上是随机浏览时您将登陆特定页面的概率,即最受欢迎的

/ My 2cents

答案 3 :(得分:0)

获取T. Segaran的“编程集体智慧”一书

http://shop.oreilly.com/product/9780596529321.do

它介绍并解释了流行度和排名算法的关键概念,并在Python中提供了全面的例子。