字符串搜索引擎 - 返回最佳结果?

时间:2012-09-10 10:44:44

标签: c# string algorithm search mathematical-optimization

我正在申请,我遇到了问题。

描述应用程序:用户在文本框中编写,然后单击输入。应用程序应搜索一个文本文件夹的句子,并根据该句子返回最相关的文本文件的标题。

那么,关于什么标准,我应该选择包含该句子的最佳文件,还是该句子的一部分?我有一些想法,基于出现次数,我正在搜索的文本文件的长度等。这是一个非常有趣的问题。

在互联网上,我找到的最佳链接是:http://www.seomoz.org/blog/search-engine-algorithm-basics

请帮助解决一些想法......

谢谢!

1 个答案:

答案 0 :(得分:2)

传统方法是使用tf-idf model来确定关键字(字词)与文档的相关程度。

这个想法是:如果它多次出现在文档中 - 文档会得到提升。然而,经常使用的单词 - 得到提升(在文档的分数上不太重要),因为它们可能出现在所有文档中。

您还想查看Lucene.NET,它是lucene的.NET版本,这是一种常用的开源搜索引擎。

您可能还想在Information Retrieval上阅读。我建议斯坦福大学Introduction to Information Retrieval作为学习该领域的良好资源。