当训练数据具有分类标签但所需的任务是概率时该怎么办?

时间:2019-03-06 19:32:53

标签: machine-learning classification regression

在一个机器学习项目中,我有一些有关公司客户的培训数据,包括20种输入功能和一个标签,该标签以是/否的形式表示客户对营销活动的反馈:

c1 => {f1_1,f2_1,...,f20_1} {Yes}

c2 => {f1_2,f2_2,...,f20_2} {No}

要求是预测广告系列每个客户的“接受概率”

因此,训练数据具有二进制分类标签,而要求是回归预测

我能够提取出每个特征的相关量w.r.t.分类标签。

根据特征与分类标签的相关强度,对特征应用所谓的“ 重要性权重”,并在特征值上应用这些权重以产生类似每个客户的得分率,并将其用作回归标签?

c1_score = w1(f1_1) + w2(f2_1) + ... + w20(f20_1)

c2_score = w1(f1_2) + w2(f2_2) + ... + w20(f20_2)

如果没有,还有其他建议吗?

1 个答案:

答案 0 :(得分:2)

  

要求是预测每个对象的“接受概率”   广告系列的客户。

     

因此,训练数据具有二进制分类标签,而   需求是回归预测。

当然可以

您的任务绝对是分类

大多数分类器实际上并不产生“硬”标签0/1作为输出;它们默认产生的是概率,它们随后通过阈值运算转换为硬标签(例如,概率p > 0.5,声明1或其他声明{{1 }}。

现在,有时会发生业务问题,无论出于何种原因,都需要这些概率而不是硬标签(您的情况就是这样,Kaggle中的绝大多数分类竞赛都是这样);这当然不会改变方法中的任何内容(这仍然是分类问题),除了消除了对最终阈值操作的要求-无论如何这都不是 statistics < / em>问题的一部分,因为this Cross Validated thread的答案正确指出:

  

练习的统计部分在输出   您的新样本的每个类别的概率。选择阈值   超出此范围,您将新观察值分类为1 vs. 0不属于   统计。它是决定组件的一部分。

因此,除了采用常用的分类算法(逻辑回归,随机森林等),而仅使用各自的方法来取回概率代替类标签(例如,{{3 }}在scikit-learn中进行逻辑回归的方法,对于其他平台/算法也是如此。

您可能还会发现以下我的回答(及其中的链接)很有用: