我有一个庞大的数据集,并且希望进行多重分类,其中每个对象可以分配给多个类。我在Apache Mahout中使用Naive Bayer分类器来做到这一点。然而,它不是为多标记分类而设计的,只是为每个对象分配具有最高概率的类。如何将此分类器扩展到我的场景?
我想到的一个解决方案是设置阈值并分配概率大于阈值的类。但要找到阈值并不容易,所以它不起作用。我想知道是否有人有任何想法?
答案 0 :(得分:0)
您需要为每个班级训练二进制分类器。训练集应包含具有目标类的数据和其他与目标类不匹配的任意数据。