具有许多离散特征的机器学习数据集

时间:2017-09-27 05:01:20

标签: python pandas dataframe machine-learning

我正在处理包含许多具有离散输出的变量的医疗数据集。例如:麻醉类型,感染部位,糖尿病y / n。为了解决这个问题,我刚刚将它们转换为带有1和0的多个列,然后删除一个以确保它们之间没有直接关联,但我想知道是否有更有效的方法来执行此操作

1 个答案:

答案 0 :(得分:-1)

这取决于转型的目的。如果序数表示与类别的逻辑不对应,则将类别转换为数字标签可能没有意义。在这种情况下," one-hot"你采用的编码方法是最好的方法,如果(我猜测你的帖子)的意图是使用生成的变量作为某种回归模型的输入。您可以使用pandas.get_dummies实现您的目标。