在数据挖掘回归问题中,有一个名为' Quality'的列,其值为:
['Excellent','Good','Average','Fair','Poor']
所以我认为' Good'优于' Average'并且我将它们更改为带有映射的序数:
'Excellent' : 5
'Good' : 4
'Average' : 3
'Fair' : 2
'Poor' : 1
所以我的问题是:
我将值更改为数字后,是否可以使用此序号的均值和方差进行缩放,例如,带有pandas的StandardScaler
答案 0 :(得分:1)
这个问题无法回答。
将序数编码为整数是启发式。例如,您可以使用-100,-10,0,5,10或其缩放版本获得更好的结果。或者它根本不重要!
如果您想知道是否有必要,您需要调查数据和流程的统计模型。这很难,你必须自己做(因为我们没有你的数据,问题和足够的时间)。