我在一列中有一组字符串,我已经使用pandas.factorize导出了数值。但是在转换之后,我注意到该列的dtype是int。
该列中的字符串本质上是序数,因此数字应代表顺序,而不仅仅是被指定为int。我应该使用“ as.type”将数字列转换为类别,还是可以不将其转换为类别而将其输入到机器学习模型中?
例子:[T0,T1,T2]代表癌症的严重程度。分解后的结果是[0,1,2]。但我怀疑它是否建立关系0 <1 <2
答案 0 :(得分:0)
from pandas.api.types import CategoricalDtype
data['A'].astype(CategoricalDtype(ordered = True))
在分解分类变量后创建的订单