“ IDF仅取决于该术语”是什么意思?

时间:2019-01-15 04:20:34

标签: information-retrieval tf-idf data-retrieval

有人举例说明“ Tf取决于术语和文档”和“ IDF取决于术语”吗?

1 个答案:

答案 0 :(得分:0)

假设我们有以下两个文档:

d_1: "Tf is dependent on term and document"
d_2: "IDF is just dependent on the term"

每个文档中的术语数如下:

d_1: 
{Tf: 1, is: 1, dependent: 1, on: 1, term: 1, and: 1, document: 1}
d_2:
{IDF: 1, is: 1, just: 1, dependent: 1, on: 1, the: 1, term: 1}

术语“开”的频率(即术语t在文档d中出现的次数与该文档中术语总数的比率)为:

tf(on, d_1) = 1 / 7
tf(on, d_2) = 1 / 7

要计算术语的术语频率,必须指定要讨论的文档。 tf(on,d_1)= 1/7告诉您d_1中所有单词的1/7为“ on”。

反文档频率(包含单词“ on”的文档的比率的对数)为:

idf(on) = log(2/2) = 0

如您所见,对于这两个文档的语料库中的所有文档,idf都是常量。这只是一个术语在一组文档中的普遍程度的一种度量。 idf(on)= 0告诉您“ on”一点也不特殊,它出现在所有文档中。