我有一组20个是/否/ na问题,我公司用它来评估是否竞标机会。到目前为止,我们已经填写了634次调查问卷。
当前算法只是将是/ /(是+否)分开,超过50%的分数建议我们追求机会。不适用答案。
我们已经跟踪了所有追求的赢/输数据,因此我有一个带标签的数据集,我正在考虑使用有监督的机器学习算法来替换我们粗略的是/否计算。
我正在寻找一种建议的Python监督机器学习方法(我最熟悉的是SKLearn)。决策树分类器?
提前谢谢。
答案 0 :(得分:1)
您有20个月的答案作为功能。设是1,不是0.所以有20个二进制特征。
您还有目标变量(赢/输)数据。让win为1,丢失为0.您可以立即使用SVM / NN。根据我的经验,SVM和逻辑回归给出了类似的精度。
但是,如果您希望解释每个功能在决策中的贡献,您应该使用朴素贝叶斯或决策树
答案 1 :(得分:0)
重要的是要知道谁在说是和否,所以如果你有10位专家用yes / no / na回答这20个问题,那么你就拥有10x20x3状态或二元特征,每个专家都有60个特征。
此外,您可以使用项目本身的功能,例如项目来自石油行业或采矿或制造业等。有些专家在一个行业的预测可能比其他行业更好。
对于分类,您可以尝试sklearn中的随机森林。
请注意,您可以通过将样本标记为公司从追求(或+)获得的利润或损失金额,而不是分类(标记项目是否被追踪或忽视),您可以将问题转换为回归任务无视(0)项目。
希望这有帮助。