我是机器学习领域的新手。我采用了Udacity"机器学习简介"课程。所以我知道使用sklearn和python运行基本分类器。但是他们在课程中教授的所有分类器都采用单一数据类型进行训练。
我遇到了一个问题,我想将代码提交分类为" clean"或者"越野车"。 我有一个功能集,其中包含字符串数据(如人名),分类数据(说"清除" vs" buggy"),数字数据(如提交编号)和时间戳数据(如提交时间)。如何同时基于这三个特征训练分类器。假设我打算使用Naive Bayes分类器和sklearn。请帮助!
我正在尝试实施paper。任何帮助都会非常明显。
答案 0 :(得分:0)
许多机器学习分类器,如逻辑回归,随机森林,决策树和SVM,可以使用连续和分类功能。我的猜测是你有两条路要走。第一个是数据预处理。例如,将所有字符串/ cateogorical数据(人名)转换为整数,或者您可以使用整体学习。
集合学习是指您使用多数投票组合不同的分类器(每个分类器处理一种异构特征),例如,因此他们可以在分类中找到共识。希望它有所帮助。