关于此training data set plot,哪种机器学习模型非常适合此。一类的大多数列值与另一类重叠。
答案 0 :(得分:2)
只是一个友好的提醒。堆栈溢出是一个有关编程问题的平台。您的问题不合主题。
看看散点图,我想说说通过logistic回归,您已经可以实现一些结果。显然,您的数据在二维空间中并不是完全可分离的。您将设计出一个不同于零的错误。
为获得更好的结果,您可以选择以下选项:
1)设计更好的功能。这两个类别的样本重叠的事实表明该特征的判别能力受到限制。您可以考虑找到更好的测量来表征样品。
2)将SVM与内核配合使用,该内核可在更大尺寸的空间中映射您的问题。样品在二维空间中不可分离的事实可以很容易地在高维空间中解决。 SVM的内核(例如多项式,高斯等)将您的点映射到更高的空间中,以分隔该空间中的数据。