应用错误收集

时间：2018-11-21 06:07:45

标签： python-3.x machine-learning

关于此training data set plot，哪种机器学习模型非常适合此。一类的大多数列值与另一类重叠。

答案 0 :(得分：2)

只是一个友好的提醒。堆栈溢出是一个有关编程问题的平台。您的问题不合主题。

看看散点图，我想说说通过logistic回归，您已经可以实现一些结果。显然，您的数据在二维空间中并不是完全可分离的。您将设计出一个不同于零的错误。

为获得更好的结果，您可以选择以下选项：

1）设计更好的功能。这两个类别的样本重叠的事实表明该特征的判别能力受到限制。您可以考虑找到更好的测量来表征样品。

2）将SVM与内核配合使用，该内核可在更大尺寸的空间中映射您的问题。样品在二维空间中不可分离的事实可以很容易地在高维空间中解决。 SVM的内核（例如多项式，高斯等）将您的点映射到更高的空间中，以分隔该空间中的数据。