我有96个功能,标签用1和-1表示,用于输入到深度学习模型。
此处3轴代表3个第一主要成分。蓝云代表标签1,红云代表标签-1。
即使我们可以从视觉上识别出两个不同的云,它们也会粘在一起。因此,我认为我们在培训阶段可能会遇到问题。
对于与t-SNE相同的功能和标签,我们仍然可以区分两朵云,但是它们又粘在一起了。
1-两点云粘在一起的事实是否会影响训练和测试阶段的%准确性?
2-当我们除去红色和蓝色时,不知何故只有一个大云。有没有办法解决两朵云“卡在一起”的问题?
答案 0 :(得分:1)
您所说的粘在一起意味着在此空间中数据不可线性分离。它似乎也不是非线性可分离的。我希望有了这些组件,您肯定会获得较差的准确性。
解决问题的方法是使用更多或不同的数据。您有一些选择。
1)包含更多主要组件该怎么办?也许4、5、10个组件可以解决您的问题。根据您的数据集,这可能不起作用,但这是最先尝试的事情。
2)您可以尝试其他矩阵分解技术。 PCA不是唯一的一个。有NMF,内核PCA,LSA等。哪种方法最适合您,将基本上取决于数据的分布。
3)使用任何其他类型的功能选择。坦率地说,一开始不是96。您打算进行深度学习吗?您通常不会将所有96个功能都放入深度学习模型中吗?如果需要,除了矩阵分解外,还有许多其他方法可以进行特征选择。
祝你好运。