我有10个功能的数据集。其中三个是绝对的;当我对这三个应用单热编码时,它们会爆炸成96个特征。我通过PCA将这96个功能减少到20个。
我计划使用20个主要组件和剩余的7个功能作为我的最终功能集。这是一个好主意:将主要组件与实际功能结合起来吗?
答案 0 :(得分:1)
但我的建议仍然是尝试两者。并选择能带来更好结果的那个(根据您的规格)
答案 1 :(得分:1)
这种方法没有理论上的问题。从统计角度来看,您所做的就是从PCA减少中排除这七个特征。这意味着您知道,先验,这七个特征是主要组成部分 - 它们对结果很重要,而不必分析它们与其他特征的独立性以及相关性。
正如<isloop iterator="#ProductBO:ExtensibleObject:OutgoingProductLinks#" alias="ProductLink">
//Code that uses linked products
</isloop>
已经提到的那样,您应该尝试两种方式:一次是您提出的方式,一次是PCA阶段中包含的所有103项功能。看哪哪个给你更好的结果。大多数数据集分析都包括尝试不同的方法来查看哪种方法可以为您提供最佳的实证结果。