使用PCA减少数据科学/维度

时间:2018-02-23 13:24:09

标签: statistics data-science dimensionality-reduction

我们知道我们可以使用PCA来降低训练集的维度,我们如何使用它来有意义地预测测试数据(因为我们对训练集的组件在测试集的情况下没有任何意义)? 我的意思是训练集的组件仅取决于训练数据,因此仅代表训练数据中的最大方差的方向,因为训练集和测试集是单个群体的互斥子集,这意味着训练集的PC不会是测试集的PC所以我的问题是与PC相关的参数,适合训练数据的模型应该与测试数据有很大不同

1 个答案:

答案 0 :(得分:0)

如果您的培训和测试数据相互排斥,则意味着 train-data 测试数据来自不同的发行版。如果你使用这样的数据集训练,训练好的模型将不会给出好的结果,或者我怀疑任何有用的结果。例如:如果您使用来自美国国家的数据来训练模型来预测收入并使用它来预测亚洲国家的收入,那么这没有任何意义。

在参加PCA之前,您应该尝试以下方法:

  • 从您将要执行的人群中获取更多数据 预测,训练和测试。
  • 如果您无法获取新数据或获取较少的新数据,请混合培训和测试数据 你有,洗牌他们,并从洗牌数据选择新的火车 和测试集。

然后在列车测试集上尝试PCA。