逆文档频率定义如下:
IDF(期限,文件)= tf(期限)* log(1 + n / df(期限))
其中tf(term)='文档中术语的频率',n ='文档数',df(术语)='包含术语的文档数。'
对df(term)感到好奇 - 即使它包含多于一次的术语,我是否只计算一个文档?
使用lucene(.net)确定此统计数据也很容易吗?我现在才开始使用后者并使用关系数据库。
感谢。
基督教
答案 0 :(得分:4)
将idf与Lucene一起使用,check the API for example here.
对于仅计算一次的文档,你是正确的。我们的想法是在日志部分中获得具有下限的函数。像这样:
如果你对幕后的idf理论感兴趣,你可以偷看this paper.
HTH!
答案 1 :(得分:1)
当然,你必须计算DF(术语)一次。因此,你应该对单词进行分组以获得不同的单词。