在数据挖掘中使用序数进行缩放是否有意义

时间:2017-01-13 05:42:21

标签: pandas machine-learning scikit-learn data-mining

在数据挖掘回归问题中,有一个名为' Quality'的列,其值为:

['Excellent','Good','Average','Fair','Poor']

所以我认为' Good'优于' Average'并且我将它们更改为带有映射的序数:

'Excellent' : 5 
'Good' : 4 
'Average' : 3 
'Fair' : 2 
'Poor' : 1 

所以我的问题是:

我将值更改为数字后,是否可以使用此序号的均值和方差进行缩放,例如,带有pandas的StandardScaler

1 个答案:

答案 0 :(得分:1)

这个问题无法回答。

将序数编码为整数是启发式。例如,您可以使用-100,-10,0,5,10或其缩放版本获得更好的结果。或者它根本不重要!

如果您想知道是否有必要,您需要调查数据和流程的统计模型。这很难,你必须自己做(因为我们没有你的数据,问题和足够的时间)。