我目前正在使用sklearn构建一个应用程序,将给定文档与其他文档进行比较,寻找相似性。
当使用像LSA这样的其他技术时,我知道我可以调整学习率,以便忘记旧文档或不太重要。有没有办法让我用TfIdf做类似的事情?如果我能定义一个与" date"成比例的权重会更好。一份文件。
我正在考虑在文档的相对日期应用某种缓慢衰减的指数函数,并将其乘以相似性的最终余弦分数。这是一个好方法吗?
答案 0 :(得分:0)
我不认为这是个好主意。使用整个文档存储库获取tfidf分数。如果你想"弃用"旧的术语,您应该不断更新您的文档存储库。例如:
each month,
* Remove the 5% oldest document in the repository.
* Add 5% latest document to the repository.
这样,你的tfidf分数会自动考虑"刷新"例如,您的数据是如何定义与"日期"成比例的权重而不是使用一组魔术参数。一份文件。
这也可以达到衰减旧数据的相同效果,因为每20个月就有一个全新的存储库。
答案 1 :(得分:0)
我发现这些文章详细说明了ElasticSearch如何根据日期提升搜索结果:{{3}}
我正在这些方面做点什么。