如何编码具有高基数的列?

时间:2019-05-17 18:26:04

标签: python-3.x encoding

我正在尝试寻找一种方法来编码我所拥有的,基本上包含的,在不同域中具有不同程度的列,我在想的是什么,这可能是对其进行编码的最佳方法。

  df['Ultima_Formazione'].value_counts()

   PhD |    Mathematics                                                                                                             2824
   Master's degree in Management Engineering                                                                                     2794
   Laurea Magistrale in Scienze Statistiche per le Decisioni | CdL Magistrale in Scienze Statistiche per le Decisioni LM-82 |    2791
   Master's degree | Geographic Information Science and Cartography | 110/110 | Master's degree                                   472
   Elettronica e     Telecomunicazioni                                                                                                468
   Master in Business Intelligence e Big Data Analytics                                                                           371
   Physics                                                                                                                        364
   Laurea Magistrale  LM | Scienze statistiche ed economiche |                                                                    360
   Laurea | Informatica                                                                                                           316
   Management |                                                                                                                   300
   Master's degree | Master in Marketing & Service Management |                                                                   267
   Informatica Applicata | Informatica                                                                                            265
   .
   .
   .
   .
   .


   Name: Ultima_Formazione, Length: 329, dtype: int64

从今天早上开始,我一直在阅读关于最佳方法的信息,但是,没有人说服我,绝对不能选择一种热编码,使用深度学习进行嵌入非常诱人,但是我认为这样做不会工作,给出我的专栏结构。

任何建议,将不胜感激,谢谢。

0 个答案:

没有答案