新闻文章的多类分类算法

时间:2014-03-29 17:19:30

标签: machine-learning scikit-learn svm random-forest document-classification

我想将新闻文章归类为它所属的类别。我有4类新闻,例如“技术,体育,政治和健康”。我已经为每个类别收集了大约50份文档作为训练集

**训练数据是否足以进行分类???我应该使用哪种算法进行分类? SVM,随机森林,Knn,??

我正在使用Scikit-learn http://scikit-learn.org/ [python]库来完成我的任务

由于

2 个答案:

答案 0 :(得分:3)

有很多方法可以将此问题从CRF攻击到随机森林。

根据您有限的训练数据,我建议使用具有高偏差的模型,例如线性SVM。从每个班级的训练一对所有模型开始,并预测可能最高的班级。这将为您提供有关给定训练数据的问题有多难的基线。

答案 1 :(得分:0)

我更喜欢你使用Naive-Bayes分类。有一个名为Ling-pipe的工具已经实现了。你想要做的只是参考

http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html

你有一个小样本程序Classifynews.java。通过训练数据并应用测试来运行该程序。训练数据样本以" 20个新闻组"

给出

http://qwone.com/~jason/20Newsgroups/

可以通过训练数据来应用培训,如果需要,您可以构建中间模型,然后将测试数据应用到该模型中。 Naive-Bayes适用于训练数据较少的情况。

但随着训练数据量的增加,其准确性也会提高。因此,请尝试添加更多新闻组。祝好运。试试看,让我知道