如何实施“相关文章?”

时间:2010-03-02 13:04:28

标签: similarity

如何编写可以找到用户当前正在阅读的相关(类似)文章的代码?

例如,假设我有文章:

Python programming tips
Python programming for newbies
Programming in Python, ActionScript and Flash
Programming in the Jungle
Tarzan saves newbie Judy from using Fortran programming language

(我现在想出了这些头衔。)

我如何查询数据库并发现它们都是相关的?

我很感激任何建议。

谢谢,Boda Cydo。

5 个答案:

答案 0 :(得分:2)

This book包含一些提示;更具体地说,这听起来像Collaborative Filtering问题。

有几种方法可以解决这个问题。一个是标记,依赖于标记这些文章的读者和贡献者,您可以将关键字与标记匹配,例如

另一种方法可能是结合搜索和分析,即Google方法。您显示搜索查询的结果,用户点击它们,超时点击其中一些也点击相关的搜索查询,您可以建立它们之间的关系。

答案 1 :(得分:1)

您使用的是哪个数据库? “全文搜索”可能对您有所帮助,MySQL只是内置它。关于它的谷歌。

答案 2 :(得分:1)

我建议您查看cosine similaritytf-idf

余弦相似度是一种用于测量两个文档之间相似性的简单方法(但不仅仅是),它不能将使用tf-idf加权的单词向量作为输入。
基本上,如果一个单词在当前文档中是频繁的(术语频率 - tf),则tf-idf权重更高,但在其他文档中很少(逆文档频率 - idf)。

答案 3 :(得分:0)

如果您的案例确实是一个内容驱动的网站,那么可能要求编辑为每篇文章添加标签是最好的方法。这就是它在整个网络上的表现(例如Wordpress)

此外,有一些方法可以通过语言处理来实现,但是因为你使用Python,我会把它留给那些蟒蛇专家......

答案 4 :(得分:0)

一个建议是为所有文章添加标签。相关文章是具有相似标签的文章。