我正在使用sklearn的tfidfvectorizer。
我基于文档的理解是这段代码应该工作
for train_index, test_index in skf.split(df, df_target):
train, train_labels = df.iloc[train_index], df_target.iloc[train_index]
test, test_labels = df.iloc[test_index], df_target.iloc[test_index]
tf_transformer = TfidfTransformer(use_idf=False)
train = tf_transformer.fit_transform(train)
test = tf_transformer.transform(test)
print test.shape
train.shape
然而,它提供了2种不同的形状
(9871, 14489)
Out[20]:
(39481, 28211)
我误解了什么吗?测试变换应该与火车形状相同?