Question

我目前正在使用sklearn构建一个应用程序，将给定文档与其他文档进行比较，寻找相似性。

当使用像LSA这样的其他技术时，我知道我可以调整学习率，以便忘记旧文档或不太重要。有没有办法让我用TfIdf做类似的事情？如果我能定义一个与＆＃34; date＆＃34;成比例的权重会更好。一份文件。

我正在考虑在文档的相对日期应用某种缓慢衰减的指数函数，并将其乘以相似性的最终余弦分数。这是一个好方法吗？

Answer 1

我不认为这是个好主意。使用整个文档存储库获取tfidf分数。如果你想＆＃34;弃用＆＃34;旧的术语，您应该不断更新您的文档存储库。例如：

each month, 
 * Remove the 5% oldest document in the repository.
 * Add 5% latest document to the repository.

这样，你的tfidf分数会自动考虑＆＃34;刷新＆＃34;例如，您的数据是如何定义与＆＃34;日期＆＃34;成比例的权重而不是使用一组魔术参数。一份文件。

这也可以达到衰减旧数据的相同效果，因为每20个月就有一个全新的存储库。

Answer 2

我发现这些文章详细说明了ElasticSearch如何根据日期提升搜索结果：{{3}}

我正在这些方面做点什么。