我希望使用Python SciKit库设置multi-output decision tree。然而,我面临的问题是它不是一个简单的“n_outputs”分类。一些样本将有3个输出,大约4个,大约5个。我不知道最好的方法是将它传达给图书馆。
我正在考虑使用最大数量的输出并具有“无输出”分类。因此,如果我训练每个样本被强制为5个输出的集合,那么最初只有3个分类的任何样本将通过添加“无输出”分类而变为5。
你觉得那会有用吗?是否有其他方法可以使用可变数量的输出来执行多输出决策树?
答案 0 :(得分:3)
听起来您正在尝试进行多标签分类,而不是多输出分类。多标签可以通过提供一个指示符向量来轻松完成,该向量表示每个样本和每个类是否在类中,因此您获得一个二进制数组(0表示不在类中,1表示在类中) (n_samples,n_classes)。
查看multi-label documentation并查看是否符合您的使用案例。