我有5000篇关于这个主题的文章我需要将它们全部归类并以纯文本形式抓取。
我需要训练一个模型,以便将其与我的主题联系起来进行分类。
如果我得到示例形式scikit-learn表格20newsgroups。 在示例中,我有使用SGDC分类器的管道:
text_clf = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier(loss='hinge', penalty='l2',
alpha=1e-3, n_iter=5, random_state=42)),])
然后我训练我的分类器发送给它的文章数组和类别数组但我只有一个类别,如果我发送数组[1,1,1,1,1,1 ...... 1]它没有效果。
学习什么方法我应该在这种情况下选择? 什么分类器和我需要学习它,并且在训练模型之前我需要其他文本规范化或其他东西