我正在使用sklearn
对文档进行分类。但是我在分割由TfidfTransformer
生成的稀疏矩阵时遇到了麻烦,该稀疏矩阵包含列车和测试数据的语料库。
以下是我的代码的一部分:
vectorizer = CountVectorizer()
transformer = TfidfTransformer(norm="l2", use_idf=True, smooth_idf=True, sublinear_tf=True)
matrix = transformer.fit_transform(vectorizer.fit_transform(corpus))
这里corpus
是列车数据和测试数据的直接组合(即读取列车数据,然后读取测试数据)
我希望将matrix
拆分为x_train
和x_test
。
train_test_split()
无法使用,因为它是随机的
但我只想拆分矩阵。
提前致谢。