我有一个看似简单的问题,但我不知道。 我的语料库很大:大约3000多个文档,并且我正在使用Tfidfectorizer来获取术语文档矩阵,提取特征等。
现在,如果我想在此训练有素的矢量化器上使用'transform'方法,以使其返回包含我要查找的字符串的文档向量,并获得该文档子集的功能,我该怎么做?
tf = TfidfVectorizer(stop_words='english',
norm='l2',
use_idf=True,
)
X_tf = tf.fit(corpus)
new_str = 'this sentence may exist in the corpus'
some_vec = tf.transform(new_str)
现在,我想得到 1.包含这句话的文件清单 2.包含此句子的文档的特征 3.特征项数
使用上面的tf实例总是可以使我获得原始语料库的功能,该语料库有数千个。如何获取文档的子集?