应用错误收集

我正在尝试对具有20个变量和9000个观测值的数据集执行k均值聚类分析。我想使用数据集中20个变量的4（余额，到期日，付款，最低付款）创建2个新变量（使用和付款比率）。例如：使用=（余额/到期日）和Payment_ratio =（付款/最低付款）。现在，我应该在开始时创建这些变量，还是应该首先限制异常值，删除/估算缺失值然后创建这两个新变量？

我尝试先清理数据，然后创建这两个变量。然后我还对异常值进行了限制，并为这两个变量再次处理了缺失值。这样做后，这两个新变量是偏斜的，我尝试使用log，sqrt等，但变量仍然不正常，即这些变量仍然存在偏差。在这一步之后，我需要进行因子分析，但我无法继续。

任何人都可以建议一个方法来解决这个问题吗？感谢。

数据清理之前或之后的变量创建？

0 个答案: