机器学习分类问题。最好的分类器是什么?

时间:2020-04-28 23:29:34

标签: machine-learning classification

我想对thius Credit Scoring dataset 进行分类,它由21个属性组成,其中一些是数字属性,另一些是布尔值。

数据集看起来像这样

Attribute 9: (qualitative)
Personal status and sex
A91 : male : divorced/separated
A92 : female : divorced/separated/married
A93 : male : single
A94 : male : married/widowed
A95 : female : single

Attribute 10: (qualitative)
Other debtors / guarantors
A101 : none
A102 : co-applicant
A103 : guarantor

Attribute 11: (numerical)
Present residence since

Attribute 12: (qualitative)
Property
A121 : real estate
A122 : if not A121 : building society savings agreement/ life insurance
A123 : if not A121/A122 : car or other, not in attribute 6
A124 : unknown / no property

输出应为布尔值(好/坏),我想知道它们是否基于这些属性而获得好坏,而无需计算任何信用分数的数值。

我正在将Weka用于此任务。但是,我不确定那种数据集的最佳/理想分类器是什么。

这里的任何人都可以使我朝正确的方向前进吗?

2 个答案:

答案 0 :(得分:0)

完成这项工作的理想工具是SVM!没有太多复杂性(例如语言或图像识别)的二进制分类已在其上编写了SVM,只需确保应用缩放器以确保所有输入都是类似的缩放器即可。您应该将布尔属性转换为0/1。斯克莱恩(Sklearn)非常适合这类事情。

如果您想更喜欢一点,可以尝试诸如随机森林或AdaBoost之类的整体分类器。

答案 1 :(得分:0)

“无免费午餐”定理指出,没有一种模型可以最好地解决每个问题。对于一个问题建立一个好的模型的假设可能不会对另一个问题成立,因此,您肯定应该尝试一些模型! 在此处查看更多信息:https://chemicalstatistician.wordpress.com/2014/01/24/machine-learning-lesson-of-the-day-the-no-free-lunch-theorem/