在小型数据集和大型数据集之间选择最佳拟合

时间:2019-08-06 07:04:37

标签: machine-learning data-science data-analysis

我目前正在做一个小项目。

所以我的问题是我有多个交付伙伴,并且有两个参数,首先是每个交付伙伴分配的总订单及其成功率。

Partner | Total Order Assigned | Success Rate(IN percent)
A       | 100                  | 70
B       | 10                   | 50
C       | 50                   | 40
D       | 4                    | 90

因此,如果有新订单到达,我想根据到目前为止的成功率和已分配的总订单,将该订单分配给交付伙伴之一。因此,在上面的示例中,D的成功率最高,但仅分配了4个订单,而A的分配了更多订单,并且成功率很高。

那我该如何解决这个问题。

预先感谢...

1 个答案:

答案 0 :(得分:-1)

这是一个不平衡的分类问题。有多种方法可以解决此问题,例如{/ {3}}上/下采样

我不确定您是否可以使用4个示例类别进行机器学习,因此您实际上可能最终完全忽略了该交付伙伴。您可以在选择模型时查看scikit学习备忘单 https://stats.stackexchange.com/questions/317601/how-to-deal-with-a-highly-unbalanced-classification-problem