从大型语料库获取文档子集的功能

时间:2019-11-09 01:01:12

标签: python-3.x transform tfidfvectorizer

我有一个看似简单的问题,但我不知道。 我的语料库很大:大约3000多个文档,并且我正在使用Tfidfectorizer来获取术语文档矩阵,提取特征等。

现在,如果我想在此训练有素的矢量化器上使用'transform'方法,以使其返回包含我要查找的字符串的文档向量,并获得该文档子集的功能,我该怎么做?

 tf = TfidfVectorizer(stop_words='english',
                      norm='l2', 
                      use_idf=True,
                      )
X_tf = tf.fit(corpus)
new_str = 'this sentence may exist in the corpus'
some_vec = tf.transform(new_str)

现在,我想得到 1.包含这句话的文件清单 2.包含此句子的文档的特征 3.特征项数

使用上面的tf实例总是可以使我获得原始语料库的功能,该语料库有数千个。如何获取文档的子集?

0 个答案:

没有答案