我正在寻找一个关于文本分类的机器学习的非常好的教程,可能使用支持向量机(SVM)或其他适用于大规模监督文本分类的技术。如果没有一个很棒的教程,那么任何人都可以指出初学者应该如何开始并做好英语语言文本分类的特征检测等工作。
书籍,文章,任何可以帮助初学者入门的东西都会非常有用!
答案 0 :(得分:2)
支持向量机(SVM)的经典风格是二元分类器(即,它解决了涉及两个类的分类问题)。但是,它也可以通过应用One vs. One,One Versus All或Error Correcting Output Codes [Alwein et al.]等技术来解决多类别分类问题。最近,对经典SVM的新修改,多类SVM允许直接解决多类分类问题[Crammer et al.]。
现在,就文档分类而言,您的主要问题是特征提取(即如何从文档中获取某些分类功能)。这不是一项微不足道的任务,并且有关于该主题的一批参考书目(例如,[Rehman et al.],[Lewis])。
一旦克服了特征提取的障碍,并将文档样本标记并放置在特征空间中,就可以应用任何分类算法,如SVM,AdaBoost e.t.c。
机器学习入门书籍: [Flach],[Mohri],[Alpaydin],[Bishop],[Hastie]
特定于SVM的书籍: [Schlkopf],[Cristianini]
关于文档分类和SVM的一些特定参考书目: [Miner et al.],[Srivastava et al.],[Weiss et al.],[Pilászy],[Joachims],[Joachims01],[Joachims97],[Sassano]