大家。我对分类算法的主题完全陌生,需要一些关于从哪里开始“严肃阅读”的好指示。我现在正在查明机器学习和自动分类算法是否值得添加到我的某些应用程序中。
我已经通过Z. Michalewicz和D. Fogel(特别是关于使用神经网络的线性分类器的章节)扫描了“如何解决它:现代启发式”,并且在实践方面,我目前正在查看WEKA toolkit源代码。我的下一个(计划好的)步骤是深入了解贝叶斯分类算法领域。
不幸的是,我在这方面缺乏认真的理论基础(更不用说,到目前为止已经以任何方式使用过它),所以任何关于下一步看的提示都会受到赞赏;特别是,对可用的分类算法的良好介绍将是有帮助的。作为一名工匠而不是理论家,越实用,越好......
提示,有人吗?
答案 0 :(得分:9)
我总是发现Andrew Moore's Tutorials非常有用。它们基于可靠的统计理论,如果您将来选择阅读它们,将非常有助于理解论文。这是一个简短的描述:
这些包括分类 决策树等算法, 神经网络,贝叶斯分类器, 支持向量机和 基于套管(又称非参数) 学习。它们包括回归 算法,如多变量 多项式回归,MARS,局部 加权回归,GMDH和神经网络 网。它们包括其他数据 挖掘操作,如聚类 (混合模型,k均值和 分层),贝叶斯网络和 强化学习
答案 1 :(得分:6)
answer referring to Andrew Moore's tutorials is a good one。然而,我想通过建议对一些驱动创建许多分类系统的需求进行一些阅读来增加它:识别因果关系。这与涉及统计推断的许多建模问题有关。
我所知道的关于因果关系和分类器系统(尤其是贝叶斯分类器)的最新资源是Judea Pearl's book "Causality: models, reasoning, and inference"。
答案 2 :(得分:4)
机器学习概述
要全面了解该字段,请观看Andrew Ng's Machine Learning course的视频讲座。
本课程(CS229) - 由Andrew Ng教授教授 - 提供机器学习和统计模式识别的广泛介绍。主题包括监督学习,无监督学习,学习理论,强化学习和自适应控制。还讨论了机器学习的最近应用,例如机器人控制,数据挖掘,自主导航,生物信息学,语音识别以及文本和web数据处理。
<强>量词强>
至于您应该使用哪种分类器,我建议首先从 Support Vector Machines (SVM) 开始,以进行常规应用分类任务。它们将为您提供最先进的性能,您并不需要了解它们背后的所有理论,只需使用像WEKA这样的软件包提供的实现。
如果您拥有更大的数据集,则可能需要尝试使用 Random Forests 。在WEKA中,此算法也有an implementation,它们可以在大数据上训练更快。虽然它们的使用范围不如SVM,但它们的准确性往往与从一个SVM中获得的准确度相匹配或几乎相匹配。