我们如何在Python中的测试(未标记)数据上应用“单词袋”列

时间:2019-05-29 13:13:53

标签: python nlp

一旦我对火车数据进行了BOW分析,我们如何将从火车数据生成的列应用于测试数据以生成标签。

我的代码如下。

    countvec= CountVectorizer(max_features=1000,ngram_range=(1,1),analyzer = "word", tokenizer=tokenize, stop_words=stopwords.words('english')) dtm=pd.DataFrame(countvec.fit_transform(alldata['REVIEW_TEXT_CLEAN']).toarray(),columns=countvec.get_feature_names(),index=None)

我能够在我的数据上生成单词袋,并获得用于训练数据的列。如何将其应用于测试数据(未标记)以进行逻辑回归。

0 个答案:

没有答案