我正在研究C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集,需要区分例如:伦敦安大略省,伦敦英国甚至是法国勃艮第的伦敦,但是从周围的文字中看特征:例如邮政编码,州名,即使没有提到“加拿大”或“英格兰”。我还可以访问元数据,例如拨号代码,这有助于确定它所在的国家/地区。
随后一旦训练过,我想在大型数据集上运行分类器。
在我发现here的所有例子中,结果只有2个状态(在这个高尔夫球例中比赛或不参加比赛)。
c4.5分类器可以处理伦敦(加拿大),伦敦(英格兰),伦敦(法国)作为结果类,还是需要为伦敦(加拿大)True / False等设置不同的分类器?
答案 0 :(得分:1)
我认为你的情况有两种选择。
p(c|v)
(给定要素x1
和{{1} },数据x2
属于类x
的概率是多少。
这些数据来自Andrew Zisserma关于多级分类的优秀tutorial。