我们正在实现扩展的布尔模型,但我们无法弄清楚如何使用给定的公式:http://en.wikipedia.org/wiki/Extended_Boolean_model这里的公式:
包含三个“变量”,但我们不知道它们意味着什么。假设我们已经处理了文档集合,因此我们已经在集合中映射了所有单词,并且对于每个术语,我们都有每个文档中的占用次数以及整个集合中的出现次数(具体术语)。
答案 0 :(得分:0)
我在那里说“与文件dj相关的术语Kx的权重”。
所以我们谈的是术语'x'和文档'j'。 'i'是最大化Idfi(频率最高的术语)的值。