逆文档频率

时间:2011-01-28 09:09:40

标签: search lucene full-text-search lucene.net

逆文档频率定义如下:

IDF(期限,文件)= tf(期限)* log(1 + n / df(期限))

其中tf(term)='文档中术语的频率',n ='文档数',df(术语)='包含术语的文档数。'

对df(term)感到好奇 - 即使它包含多于一次的术语,我是否只计算一个文档?

使用lucene(.net)确定此统计数据也很容易吗?我现在才开始使用后者并使用关系数据库。

感谢。

基督教

2 个答案:

答案 0 :(得分:4)

将idf与Lucene一起使用,check the API for example here.

对于仅计算一次的文档,你是正确的。我们的想法是在日志部分中获得具有下限的函数。像这样:

enter image description here

如果你对幕后的idf理论感兴趣,你可以偷看this paper.

HTH!

答案 1 :(得分:1)

当然,你必须计算DF(术语)一次。因此,你应该对单词进行分组以获得不同的单词。

See my class IDF here