我有混合了连续变量和分类变量的数据。我计划对分类变量进行单热编码,缩放数据集(均值= 0,std = 1),然后执行PCA以减少维数。在进行PCA之前,我需要知道是否应该同样地扩展单热编码变量?我将使用python scikit-learn包。
答案 0 :(得分:0)
我认为,this answer to a similar question on SO is relevant。在StackExchange上也有一般性讨论:https://stats.stackexchange.com/questions/5774/can-principal-component-analysis-be-applied-to-datasets-containing-a-mix-of-cont。但是,它仅在R中引入了一个包。
我能够在python中找到的唯一软件包是这个软件包:https://github.com/MaxHalford/prince。请注意,这是一个私有软件包,因此不应在维护人员的空闲时间之外获得广泛的支持。该软件包FAMD中包含相关工具,目前正在构建/调试中。