StackOverflow使用什么算法来查找类似的问题?

时间:2013-04-24 15:52:54

标签: algorithm

我需要在我正在建立的网站中为客户创建一个帮助台,我喜欢StackOverflow找到类似问题的方式。有谁知道该网站使用的算法,你能提供任何我能找到的参考吗?

2 个答案:

答案 0 :(得分:5)

Machine Learning的整个分支称为clustering(一种unsupervised learning)来处理此类问题。

问题成为群集的一部分,同一群集中的其他问题(可能按similarity measure距离的顺序)显示为类似问题。

它可以用于群集的各种features,其中一些可能是:

  • 标签
  • 标题中的单词
  • 文字中的字数(比标题重量轻)
  • 与其他问题/网页的链接。

等等。

可能还有其他使用text summarizationsentiment analysis等技术制定的功能,这些功能会在这些问题中使用。哪些功能对于哪个问题取决于问题是好的。

您看到这些算法的其他方面是:

  • 的Youtube
  • 维基百科
  • IMDB

并且列表继续无限。

那么你能对你的问题做些什么呢?

没有一个答案。这一切都取决于您的数据和目标查询。但是,你仍然可以

  • 了解feature engineering
  • machine learning方面
  • 了解clustering

(这里有许多在线课程。)

或者

  • 雇用一个知道这些东西的人。

答案 1 :(得分:1)

很可能是标签上的加权匹配,也许是标题上的匹配()或等效的全文加权搜索。

它可能在meta某处或FAQ

中得到了它的详细信息