应用错误收集

具有许多离散特征的机器学习数据集

时间：2017-09-27 05:01:20

标签： python pandas dataframe machine-learning

我正在处理包含许多具有离散输出的变量的医疗数据集。例如：麻醉类型，感染部位，糖尿病y / n。为了解决这个问题，我刚刚将它们转换为带有1和0的多个列，然后删除一个以确保它们之间没有直接关联，但我想知道是否有更有效的方法来执行此操作

1 个答案:

答案 0 :(得分：-1)

这取决于转型的目的。如果序数表示与类别的逻辑不对应，则将类别转换为数字标签可能没有意义。在这种情况下，＆＃34; one-hot＆＃34;你采用的编码方法是最好的方法，如果（我猜测你的帖子）的意图是使用生成的变量作为某种回归模型的输入。您可以使用pandas.get_dummies实现您的目标。

非离散数据集的信息增益
为什么太多的功能导致过度拟合？
将较小的图像用于输入数据集中较少的特征
使用机器学习在数据集中的功能的重要性？
具有许多离散特征的机器学习数据集
平衡分区具有n个加权特征的数据集
具有不同类型特征的数据集的分类
具有文本特征的数据集的逻辑回归
SVM训练数据集与Alexnet功能数据集相同
给定具有特征和分数的数据集，请确定哪些特征与高分最相关

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？