应用错误收集

我有一个看似简单的问题，但我不知道。我的语料库很大：大约3000多个文档，并且我正在使用Tfidfectorizer来获取术语文档矩阵，提取特征等。

现在，如果我想在此训练有素的矢量化器上使用'transform'方法，以使其返回包含我要查找的字符串的文档向量，并获得该文档子集的功能，我该怎么做？

 tf = TfidfVectorizer(stop_words='english',
                      norm='l2', 
                      use_idf=True,
                      )
X_tf = tf.fit(corpus)
new_str = 'this sentence may exist in the corpus'
some_vec = tf.transform(new_str)

现在，我想得到 1.包含这句话的文件清单 2.包含此句子的文档的特征 3.特征项数

使用上面的tf实例总是可以使我获得原始语料库的功能，该语料库有数千个。如何获取文档的子集？

从大型语料库获取文档子集的功能

0 个答案: