将分类数据用作特征/目标,而无需对其进行编码

时间:2020-07-16 01:41:19

标签: machine-learning

我最近发现了一个模型,可以根据爱尔兰叶子的大小对它进行分类。有3种类型的花朵作为目标(因变量)。据我所知,分类数据应进行编码,以便可以在机器学习中使用。但是,在模型中,无需编码过程即可直接使用数据。 谁能帮助您解释何时使用编码?预先谢谢你!

1 个答案:

答案 0 :(得分:0)

相关问题-连续要素变量的编码。 最初,Iris数据由Fisher发布线性判别式分类器时发布。

通常,有以下区别:

  • 实值分类器
  • 离散特征分类器

线性判别分析和二次判别分析是实值分类器。尝试添加离散变量作为额外的输入无效。已经开发出用于在判别分析中使用指标变量(统计中使用的名称)的特殊程序。而且,k近邻分类器实际上仅适用于实值特征变量。

朴素贝叶斯分类器最常用于具有离散特征的分类问题。当您不想假设要素变量之间的条件独立性时,可以将多项式分类器应用于离散要素。一次即可为您完成所有操作的分类服务是insight classifiers

神经网络和支持向量机结合了实值和离散特征。我的建议是为每个离散结果使用一个单独的输入节点- 不要使用 一个具有以下值的单个输入节点:(< strong> 0 :较小, 1 :较小, 2 :中等, 3 :较大, 4 :大)。每输出一个输入节点编码将改善您的训练结果并产生更好的测试集性能。

随机森林分类器还无缝地结合了实值和离散特征。

最终的建议是训练和测试集至少比较4种不同类型的分类器,因为没有通用的最佳分类器之类的东西。