应用错误收集

逆文档频率

时间：2011-01-28 09:09:40

标签： search lucene full-text-search lucene.net

逆文档频率定义如下：

IDF（期限，文件）= tf（期限）* log（1 + n / df（期限））

其中tf（term）='文档中术语的频率'，n ='文档数'，df（术语）='包含术语的文档数。'

对df（term）感到好奇 - 即使它包含多于一次的术语，我是否只计算一个文档？

使用lucene（.net）确定此统计数据也很容易吗？我现在才开始使用后者并使用关系数据库。

感谢。

基督教

2 个答案:

答案 0 :(得分：4)

将idf与Lucene一起使用，check the API for example here.

对于仅计算一次的文档，你是正确的。我们的想法是在日志部分中获得具有下限的函数。像这样：

enter image description here

如果你对幕后的idf理论感兴趣，你可以偷看this paper.

HTH！

答案 1 :(得分：1)

当然，你必须计算DF（术语）一次。因此，你应该对单词进行分组以获得不同的单词。

See my class IDF here