TfIdf学习率/文件重量

时间:2016-10-27 15:39:53

标签: machine-learning tf-idf

我目前正在使用sklearn构建一个应用程序,将给定文档与其他文档进行比较,寻找相似性。

当使用像LSA这样的其他技术时,我知道我可以调整学习率,以便忘记旧文档或不太重要。有没有办法让我用TfIdf做类似的事情?如果我能定义一个与" date"成比例的权重会更好。一份文件。

我正在考虑在文档的相对日期应用某种缓慢衰减的指数函数,并将其乘以相似性的最终余弦分数。这是一个好方法吗?

2 个答案:

答案 0 :(得分:0)

我不认为这是个好主意。使用整个文档存储库获取tfidf分数。如果你想"弃用"旧的术语,您应该不断更新您的文档存储库。例如:

each month, 
 * Remove the 5% oldest document in the repository.
 * Add 5% latest document to the repository.

这样,你的tfidf分数会自动考虑"刷新"例如,您的数据是如何定义与"日期"成比例的权重而不是使用一组魔术参数。一份文件。

这也可以达到衰减旧数据的相同效果,因为每20个月就有一个全新的存储库。

答案 1 :(得分:0)

我发现这些文章详细说明了ElasticSearch如何根据日期提升搜索结果:{{3}}

我正在这些方面做点什么。