CatBoost中的多类多标签分类

时间:2020-02-11 09:55:36

标签: catboost

我需要使用CatBoost执行多类多标签分类。

示例数据:

X = [[1, 2, 3, 4], [2, 3, 5, 1], [4, 5, 1, 3]]

y = [[3, 1], [2, 8], [7, 8]]

您能提供一个可行的例子吗?

我想我需要用一些sklearn分类器包装CatBoostClassifier。

谢谢!

1 个答案:

答案 0 :(得分:4)

您是对的,可以使用sklearn包装器来完成,特别是one-vs-rest分类器的sklearns实现。该技术为每个类别建立一个分类器,将您的问题视为二进制分类问题的组合,每个类别一个。

这是如何工作的?对于给定类别,标有该类别的样本构成阳性样本,所有其他样本均视为阴性样本。

当您的课程数量很少时,这是一种可行的方法。 但是,当您有大量的课程时,内存使用和培训时间将变得令人望而却步。在这种情况下,如果您拥有大量数据,则使用基于神经网络的方法来实施解决方案可能会效率更高。

这里有一个工作示例:

from catboost import CatBoostClassifier
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import MultiLabelBinarizer

##Using your example data 

X = [[1, 2, 3, 4], [2, 3, 5, 1], [4, 5, 1, 3]]

y = [[3, 1], [2, 8], [7, 8]]

mlb = MultiLabelBinarizer()
mlb.fit(y)
y_k_hot = mlb.transform(y)

ovr = OneVsRestClassifier(estimator=CatBoostClassifier(iterations=10,random_state=1))
ovr.fit(X,y_k_hot)

ovr.predict(X)*mlb.classes_

array([[1, 0, 3, 0, 0],
       [0, 2, 0, 0, 8],
       [0, 0, 0, 7, 8]])