我正在尝试对具有20个变量和9000个观测值的数据集执行k均值聚类分析。我想使用数据集中20个变量的4(余额,到期日,付款,最低付款)创建2个新变量(使用和付款比率)。例如:使用=(余额/到期日)和Payment_ratio =(付款/最低付款)。现在,我应该在开始时创建这些变量,还是应该首先限制异常值,删除/估算缺失值然后创建这两个新变量?
我尝试先清理数据,然后创建这两个变量。然后我还对异常值进行了限制,并为这两个变量再次处理了缺失值。这样做后,这两个新变量是偏斜的,我尝试使用log,sqrt等,但变量仍然不正常,即这些变量仍然存在偏差。在这一步之后,我需要进行因子分析,但我无法继续。
任何人都可以建议一个方法来解决这个问题吗?感谢。