在一个机器学习项目中,我有一些有关公司客户的培训数据,包括20种输入功能和一个标签,该标签以是/否的形式表示客户对营销活动的反馈:
c1 => {f1_1,f2_1,...,f20_1} {Yes}
c2 => {f1_2,f2_2,...,f20_2} {No}
要求是预测广告系列每个客户的“接受概率” 。
因此,训练数据具有二进制分类标签,而要求是回归预测。
我能够提取出每个特征的相关量w.r.t.分类标签。
根据特征与分类标签的相关强度,对特征应用所谓的“ 重要性权重”,并在特征值上应用这些权重以产生类似每个客户的得分率,并将其用作回归标签?
c1_score = w1(f1_1) + w2(f2_1) + ... + w20(f20_1)
c2_score = w1(f1_2) + w2(f2_2) + ... + w20(f20_2)
如果没有,还有其他建议吗?
答案 0 :(得分:2)
要求是预测每个对象的“接受概率” 广告系列的客户。
因此,训练数据具有二进制分类标签,而 需求是回归预测。
当然可以不。
您的任务绝对是分类。
大多数分类器实际上并不产生“硬”标签0/1
作为输出;它们默认产生的是概率,它们随后通过阈值运算转换为硬标签(例如,概率p > 0.5
,声明1
或其他声明{{1 }}。
现在,有时会发生业务问题,无论出于何种原因,都需要这些概率而不是硬标签(您的情况就是这样,Kaggle中的绝大多数分类竞赛都是这样);这当然不会改变方法中的任何内容(这仍然是分类问题),除了消除了对最终阈值操作的要求-无论如何这都不是 statistics < / em>问题的一部分,因为this Cross Validated thread的答案正确指出:
练习的统计部分在输出 您的新样本的每个类别的概率。选择阈值 超出此范围,您将新观察值分类为1 vs. 0不属于 统计。它是决定组件的一部分。
因此,除了采用常用的分类算法(逻辑回归,随机森林等),而仅使用各自的方法来取回概率代替类标签(例如,{{3 }}在scikit-learn中进行逻辑回归的方法,对于其他平台/算法也是如此。
您可能还会发现以下我的回答(及其中的链接)很有用: