如何使用scikitlearn训练文本分类SVM
模型?我想使用pipeline
从训练数据的文本中提取count_vectorizer
和tfidf
特征加,我想将一些数字化手工设计特征传递给模型我为每个训练样本计算的。
这是我现在拥有的:
model = Pipeline([('vectorizer', CountVectorizer(ngram_range=(1,2))),
('tfidf', TfidfTransformer(use_idf=True)),
('clf', OneVsRestClassifier(LinearSVC(class_weight="balanced")))])
model.fit(list(train_data.text), list(train_data.label))