具有如下数据集
Brand,type
1,415 N 22
1,C 415 N 22
1,FATIH
1,FATİH 180
1,FATIH 180
1,FATİH 180.25
2,85380
2,95430
2,CF 85
2,CF 85.380
5,32260
5,AS 26.235
5,AS 950 AS TS
5,HİNO 26.260
5,PD 950 AS
6,3 DİNG.İLAV DAMP
6,32260 HİNO
6,AS 26.235
6,AS 26.235 SN
如所见,每个品牌都有不同数量的类型,并且没有顺序。就搜索here和here而言,我可以对分类列进行简单编码。但是,我有16个不同的品牌,每个品牌都有5-10种类型,样本总数约为13000。这使得type列的编码范围在1到120之间。但是我认为这种差异会损害我的模特表演。
Brand,type
1,1
1,2
1,3
1,4
1,4
1,5
2,6
2,7
.
.
如果我基于品牌进行编码,例如仅对品牌1编码类型列进行编码,则对其他品牌重复该过程将缩小范围。就像品牌1的类型值在1到5之间,品牌2的1到10等之间。但是,这对我来说没有意义,因为品牌1的“ 1”与品牌2的“ 1”。
Brand,type
1,1
1,2
1,3
1,4
1,4
1,5
2,1
2,2
.
.
所以,我坚持了这一点。我该如何解决这个问题?