在类中将类编码为因素的方法?

时间:2019-07-17 15:22:54

标签: python pandas character-encoding categorical-data factors

我正在使用K均值聚类,并尝试为数据集中的每个聚类生成摘要统计信息。由于我有一个热编码的类别,因此有180多个列可以从中生成摘要,但汇总不是非常有用。 python中没有方法来生成汇总的统计信息,如下面的文章所示,这是在R中完成的,主要是针对作为要素的分类特征?

python没有办法将分类变量表示为因素;这样,将不会创建其他列,并且摘要将更有意义和紧凑。 (仅供参考,我正在使用pandas_profiling.ProfileReport(df)方法生成摘要,而该方法比df.describe()有用得多,尤其是对于分类特征而言。)

https://towardsdatascience.com/clustering-on-mixed-type-data-8bbd0a2569c3

0 个答案:

没有答案