应用错误收集

时间：2016-07-04 17:17:31

标签： machine-learning scikit-learn

我有一组20个是/否/ na问题，我公司用它来评估是否竞标机会。到目前为止，我们已经填写了634次调查问卷。

当前算法只是将是/ /（是+否）分开，超过50％的分数建议我们追求机会。不适用答案。

我们已经跟踪了所有追求的赢/输数据，因此我有一个带标签的数据集，我正在考虑使用有监督的机器学习算法来替换我们粗略的是/否计算。

我正在寻找一种建议的Python监督机器学习方法（我最熟悉的是SKLearn）。决策树分类器？

提前谢谢。

答案 0 :(得分：1)

您有20个月的答案作为功能。设是1，不是0.所以有20个二进制特征。

您还有目标变量（赢/输）数据。让win为1，丢失为0.您可以立即使用SVM / NN。根据我的经验，SVM和逻辑回归给出了类似的精度。

但是，如果您希望解释每个功能在决策中的贡献，您应该使用朴素贝叶斯或决策树

答案 1 :(得分：0)

重要的是要知道谁在说是和否，所以如果你有10位专家用yes / no / na回答这20个问题，那么你就拥有10x20x3状态或二元特征，每个专家都有60个特征。

此外，您可以使用项目本身的功能，例如项目来自石油行业或采矿或制造业等。有些专家在一个行业的预测可能比其他行业更好。

对于分类，您可以尝试sklearn中的随机森林。

请注意，您可以通过将样本标记为公司从追求（或+）获得的利润或损失金额，而不是分类（标记项目是否被追踪或忽视），您可以将问题转换为回归任务无视（0）项目。

希望这有帮助。