在Multi-Class Classification(MCC)问题的背景下, 一种常见的方法是从多个二元分类器构建最终解决方案。 通常提到的两种组合策略是一对一和一对一。
为了区分方法, 查看每个二元分类器尝试做什么更清楚。 One-vs-all的原始分类器试图将一个类与其余类分开。 而一对一的原始尝试将一个与一个人分开 One-vs-one is also, quite confusingly, called all-vs-all and all-pairs.
我想调查这个相当简单的建筑理念 MCC分类器通过组合二进制分类器 二元决策树式的方式。 举例说明:
has wings?
/ \
quack? nyan?
/ \ / \
duck bird cat dog
正如您所看到的,has wings?
执行2-vs-2分类,
所以我称之为多对多的方法。
问题是,我不知道从哪里开始阅读。
你会推荐一篇好文章吗?
要提供更多背景信息, 我正在考虑使用多级进化算法(MLEA)来构建树。 因此,如果有更直接的答案,那将是最受欢迎的。
编辑:有关更多上下文(也许您可能会发现它很有用), 我读了this paper,这是GECCO 2011 best paper获奖者之一; 它使用MLEA以一对一的方式组成MCC。 这就是激励我寻找将其修改为决策树构建器的方法。
答案 0 :(得分:3)
你想要的看起来非常像Decision Trees。
来自wiki:
用于统计,数据挖掘和机器学习的决策树学习使用决策树作为预测模型,该模型将关于项目的观察结果映射到关于项目目标值的结论。这种树模型的更多描述性名称是分类树或回归树。在这些树结构中,叶子表示类标签,分支表示导致这些类标签的特征的连接。
答案 1 :(得分:1)
Sailesh的回答是正确的,因为您打算构建的是一个决策树。已经有许多算法用于学习这样的树,例如,随机森林。你可以,例如试试weka,看看那里有什么。
如果您对进化算法更感兴趣,我想提一下Genetic Programming。您可以尝试在HeuristicLab中实施我们的实施。它可以处理数字类并尝试找到一个公式(树),该公式(树)使用例如将每一行映射到其各自的类。均方误差(MSE)作为适应度函数。
还有基于实例的分类方法,如最近邻或基于内核的方法,如支持向量机。基于实例的方法也支持多个类,但是使用内核方法,您必须使用您提到的方法之一。