我有一个重叠的数据集。到目前为止,我对SVM的结果并不好。您是否对这两个数据集之间可能存在差异的模型有任何建议?
答案 0 :(得分:0)
通过插入其中一个类并预测另一个类很容易拟合数据集。但是,这种方法的问题在于它不会很好地概括。你必须要问自己的问题是,如果你可以根据其属性预测一个点的类。如果没有,则每个ML算法也将无法执行此操作。
然后,您可以做的唯一合理的事情是为每个点收集更多数据和更多属性。也许通过添加第三维,您可以更轻松地分离数据。
答案 1 :(得分:0)
如果数据重叠太多,两者应该属于同一类,但我们知道它们不属于同一类。因此,有一些特征或变量将这些数据点分成两类。尝试为数据添加更多功能。
有时,只是将数据转换为不同的比例可能会有所帮助。
这两个类不需要平均分配,因为可以单独处理偏斜的数据分布。
答案 2 :(得分:-1)
首先,您的标准是什么?#34;良好的结果"?你使用什么样的SVM?对于" good"的大多数概念来说,简单线性肯定会失败,但是一个严重错综复杂的高斯内核可能从图的上部区域的少数几个连续点中挖掘出一些东西。 / p>
我建议您对您提供的数据进行一些基本统计,看看它们是否真的像您一样可分离。我建议对初学者进行T检验。
如果您有其他尺寸,我强烈建议您使用它们。从您可以处理的最大量输入开始,并从那里减少(主成分分析)。在我们知道数据的完整形状和分布之前,我们没有太多希望找到有用的算法。
那就是说,我会提出一个先发制人的建议,即当你添加其他维度时,你会研究光谱聚类算法。有些是密度好的,有些是连通性,有些则是关键。