文件的TF-IDF排名和排名的二元独立模型有什么区别?我无法区分它们。
我认为二元独立模型的实际实现导致了TF-IDF。如果我错了,请帮助我。
答案 0 :(得分:2)
你是对的。 Binary Independence Model假设文档是二进制向量。也就是说,仅记录文档中是否存在术语。另一方面,根据Vector Space Model,文件由术语权重向量表示,TF-IDF只是表示权重的一种方式。
答案 1 :(得分:2)
主要的区别在于,在二元独立模型中,不知道单词的重要程度,所有单词都被视为相同。但是,使用TF-IDF对单词进行加权可以为在一个文档中使用更多且文档频率更低的单词提供更好的分数。