我正在申请,我遇到了问题。
描述应用程序:用户在文本框中编写,然后单击输入。应用程序应搜索一个文本文件夹的句子,并根据该句子返回最相关的文本文件的标题。
那么,关于什么标准,我应该选择包含该句子的最佳文件,还是该句子的一部分?我有一些想法,基于出现次数,我正在搜索的文本文件的长度等。这是一个非常有趣的问题。
在互联网上,我找到的最佳链接是:http://www.seomoz.org/blog/search-engine-algorithm-basics。
请帮助解决一些想法......
谢谢!
答案 0 :(得分:2)
传统方法是使用tf-idf model来确定关键字(字词)与文档的相关程度。
这个想法是:如果它多次出现在文档中 - 文档会得到提升。然而,经常使用的单词 - 得到提升(在文档的分数上不太重要),因为它们可能出现在所有文档中。
您还想查看Lucene.NET,它是lucene的.NET版本,这是一种常用的开源搜索引擎。
您可能还想在Information Retrieval上阅读。我建议斯坦福大学Introduction to Information Retrieval作为学习该领域的良好资源。