Sklearn中的数据类型和机器学习算法

时间:2016-01-14 20:32:29

标签: python pandas machine-learning scikit-learn

在滑雪套件中运行机器学习算法学习时,是否有人知道变量的数据类型是否扮演(负面)角色?

这里有一些可能会影响对这个问题的回答的背景:我有一个299变量数据集,其中输出变量是一个虚拟变量。这将是一个分类问题,我想尝试不同的选项,如逻辑回归和基于树的模型。当我用pandas导入我的数据集时,我注意到一些变量被赋予了int64的数据类型,实际上它们是分类变量。这会成为机器学习算法的问题吗?如果这是一个愚蠢的问题,请原谅我......我对机器学习世界还是比较新的,虽然我没有在文献中看到过关于这个主题的任何内容,但我确实想确保我不会离开在我开始之前跟踪。

1 个答案:

答案 0 :(得分:0)

它将用于scikit-learn,因为scikit-learn不支持分类功能。它最终将整数值视为数字特征,并且不会像您希望的那样表现。它确实支持以数字形式重新编码它们(参见here),但与使用自然支持数字和分类特征的库和算法相比,这是次优的。