需要机器学习策略

时间:2016-07-04 17:17:31

标签: machine-learning scikit-learn

我有一组20个是/否/ na问题,我公司用它来评估是否竞标机会。到目前为止,我们已经填写了634次调查问卷。

当前算法只是将是/ /(是+否)分开,超过50%的分数建议我们追求机会。不适用答案。

我们已经跟踪了所有追求的赢/输数据,因此我有一个带标签的数据集,我正在考虑使用有监督的机器学习算法来替换我们粗略的是/否计算。

我正在寻找一种建议的Python监督机器学习方法(我最熟悉的是SKLearn)。决策树分类器?

提前谢谢。

2 个答案:

答案 0 :(得分:1)

您有20个月的答案作为功能。设是1,不是0.所以有20个二进制特征。

您还有目标变量(赢/输)数据。让win为1,丢失为0.您可以立即使用SVM / NN。根据我的经验,SVM和逻辑回归给出了类似的精度。

但是,如果您希望解释每个功能在决策中的贡献,您应该使用朴素贝叶斯或决策树

答案 1 :(得分:0)

重要的是要知道谁在说是和否,所以如果你有10位专家用yes / no / na回答这20个问题,那么你就拥有10x20x3状态或二元特征,每个专家都有60个特征。

此外,您可以使用项目本身的功能,例如项目来自石油行业或采矿或制造业等。有些专家在一个行业的预测可能比其他行业更好。

对于分类,您可以尝试sklearn中的随机森林。

请注意,您可以通过将样本标记为公司从追求(或+)获得的利润或损失金额,而不是分类(标记项目是否被追踪或忽视),您可以将问题转换为回归任务无视(0)项目。

希望这有帮助。