我正在尝试寻找一种方法来编码我所拥有的,基本上包含的,在不同域中具有不同程度的列,我在想的是什么,这可能是对其进行编码的最佳方法。
df['Ultima_Formazione'].value_counts()
PhD | Mathematics 2824
Master's degree in Management Engineering 2794
Laurea Magistrale in Scienze Statistiche per le Decisioni | CdL Magistrale in Scienze Statistiche per le Decisioni LM-82 | 2791
Master's degree | Geographic Information Science and Cartography | 110/110 | Master's degree 472
Elettronica e Telecomunicazioni 468
Master in Business Intelligence e Big Data Analytics 371
Physics 364
Laurea Magistrale LM | Scienze statistiche ed economiche | 360
Laurea | Informatica 316
Management | 300
Master's degree | Master in Marketing & Service Management | 267
Informatica Applicata | Informatica 265
.
.
.
.
.
Name: Ultima_Formazione, Length: 329, dtype: int64
从今天早上开始,我一直在阅读关于最佳方法的信息,但是,没有人说服我,绝对不能选择一种热编码,使用深度学习进行嵌入非常诱人,但是我认为这样做不会工作,给出我的专栏结构。
任何建议,将不胜感激,谢谢。