我试图找出一种比较两个对象的方法,每个对象由一堆文本描述。
TfidfVectorizer
允许我获得(文本,单词)的tf-idf加权稀疏矩阵,并对每个文本进行预处理。
因此,我可以在每个对象上使用vectorizer.fit_transform(o.texts)
,但是我假设我只需要保留两批文本中出现的单词的列即可。
然后,我将可以使用(tfidf_object1 * tfidf_object2.T).A
,因为矩阵将具有相同数量的列。
但是如何将备用矩阵缩小为常用词呢?
我已经看到矢量化器具有词汇属性,但是我不明白它与fit_transform
给出的矩阵索引之间的关系。
另外,我需要为每个对象使用一个矢量化器,而所有矢量化器的行为应相同。
因此,我正在寻找一种使用Python中的tf-idf指标来比较两批文本的方法,因为我觉得我所知道的想法并没有到处...