使用pandas.factorize是否保留变量的序数性质?

时间:2019-04-17 15:54:39

标签: pandas sklearn-pandas

我在一列中有一组字符串,我已经使用pandas.factorize导出了数值。但是在转换之后,我注意到该列的dtype是int。

该列中的字符串本质上是序数,因此数字应代表顺序,而不仅仅是被指定为int。我应该使用“ as.type”将数字列转换为类别,还是可以不将其转换为类别而将其输入到机器学习模型中?

例子:[T0,T1,T2]代表癌症的严重程度。分解后的结果是[0,1,2]。但我怀疑它是否建立关系0 <1 <2

1 个答案:

答案 0 :(得分:0)

from pandas.api.types import CategoricalDtype
data['A'].astype(CategoricalDtype(ordered = True))

在分解分类变量后创建的订单