将gensim相似度计算限制为语料库的子集

时间:2016-02-18 00:56:38

标签: python gensim

我希望在Python上使用gensim来计算文档之间的相似性。

我想要一种能够将计算限制为仅仅是语料库的子集的方法。具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值。

我看不到任何关于例如http://radimrehurek.com/gensim/simserver.html关于如何将其他变量与每个文档相关联,以及如何将相似性限制为仅限于那些文档 - 实际上我想要做的可能是不可行的。因此,我的问题是,这是可能的,或者是使用多个语料库实现这一目标的唯一方法。

1 个答案:

答案 0 :(得分:0)

你可以通过忽略不适合你目标年份的结果来解决这个问题。

  1. 为您的文档创建document2year_dict(文档,年份)。
  2. 以距离顺序获取文档列表 target_document。
  3. 遍历列表并丢弃文档 if document2year_dict [current_document]!= target_year