应用错误收集

时间：2012-09-10 10:44:44

标签： c# string algorithm search mathematical-optimization

我正在申请，我遇到了问题。

描述应用程序：用户在文本框中编写，然后单击输入。应用程序应搜索一个文本文件夹的句子，并根据该句子返回最相关的文本文件的标题。

那么，关于什么标准，我应该选择包含该句子的最佳文件，还是该句子的一部分？我有一些想法，基于出现次数，我正在搜索的文本文件的长度等。这是一个非常有趣的问题。

请帮助解决一些想法......

谢谢！

答案 0 :(得分：2)

传统方法是使用tf-idf model来确定关键字（字词）与文档的相关程度。

这个想法是：如果它多次出现在文档中 - 文档会得到提升。然而，经常使用的单词 - 得到提升（在文档的分数上不太重要），因为它们可能出现在所有文档中。

您还想查看Lucene.NET，它是lucene的.NET版本，这是一种常用的开源搜索引擎。

您可能还想在Information Retrieval上阅读。我建议斯坦福大学Introduction to Information Retrieval作为学习该领域的良好资源。