比较两组文字

时间:2018-07-21 01:58:04

标签: python nlp data-science

我试图找出一种比较两个对象的方法,每个对象由一堆文本描述。

TfidfVectorizer允许我获得(文本,单词)的tf-idf加权稀疏矩阵,并对每个文本进行预处理。 因此,我可以在每个对象上使用vectorizer.fit_transform(o.texts),但是我假设我只需要保留两批文本中出现的单词的列即可。 然后,我将可以使用(tfidf_object1 * tfidf_object2.T).A,因为矩阵将具有相同数量的列。 但是如何将备用矩阵缩小为常用词呢? 我已经看到矢量化器具有词汇属性,但是我不明白它与fit_transform给出的矩阵索引之间的关系。 另外,我需要为每个对象使用一个矢量化器,而所有矢量化器的行为应相同。

因此,我正在寻找一种使用Python中的tf-idf指标来比较两批文本的方法,因为我觉得我所知道的想法并没有到处...

0 个答案:

没有答案