使用具有多种结果的C4.5分类器

时间:2013-06-10 19:10:28

标签: machine-learning

我正在研究C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集,需要区分例如:伦敦安大略省,伦敦英国甚至是法国勃艮第的伦敦,但是从周围的文字中看特征:例如邮政编码,州名,即使没有提到“加拿大”或“英格兰”。我还可以访问元数据,例如拨号代码,这有助于确定它所在的国家/地区。

随后一旦训练过,我想在大型数据集上运行分类器。

在我发现here的所有例子中,结果只有2个状态(在这个高尔夫球例中比赛或不参加比赛)。

c4.5分类器可以处理伦敦(加拿大),伦敦(英格兰),伦敦(法国)作为结果类,还是需要为伦敦(加拿大)True / False等设置不同的分类器?

1 个答案:

答案 0 :(得分:1)

我认为你的情况有两种选择。

  • 第一种方法是对c4.5的直接扩展。在每个叶节点中,您保留所有标签而不是仅保留多数标签。例如,如下图所示,红色标签实际上存在于三个不同的叶子中。当您在箭头指向的数据点处进行查询时,输出为3个标签(绿色,红色和蓝色)及其对应的条件概率p(c|v)(给定要素x1和{{1} },数据x2属于类x的概率是多少。

single tree classification

  • 第二种方法是生成多个决策树,因此是随机森林。可以通过随机采样可用于每个树的训练数据子集来注入随机性。在分类时,您可以聚合来自所有决策树的投票以获得多级分类结果。

random forest ensemble

这些数据来自Andrew Zisserma关于多级分类的优秀tutorial