tfidf矢量化器给出不同的形状

时间:2017-03-12 02:59:34

标签: python scikit-learn

我正在使用sklearn的tfidfvectorizer。

我基于文档的理解是这段代码应该工作

for train_index, test_index in skf.split(df, df_target):
    train, train_labels = df.iloc[train_index], df_target.iloc[train_index]

    test, test_labels = df.iloc[test_index], df_target.iloc[test_index]
    tf_transformer = TfidfTransformer(use_idf=False)
    train = tf_transformer.fit_transform(train)
    test = tf_transformer.transform(test)


    print test.shape
    train.shape

然而,它提供了2种不同的形状

(9871, 14489)
Out[20]:
(39481, 28211)

我误解了什么吗?测试变换应该与火车形状相同?

0 个答案:

没有答案