应用错误收集

Sklearn中的数据类型和机器学习算法

时间：2016-01-14 20:32:29

标签： python pandas machine-learning scikit-learn

在滑雪套件中运行机器学习算法学习时，是否有人知道变量的数据类型是否扮演（负面）角色？

这里有一些可能会影响对这个问题的回答的背景：我有一个299变量数据集，其中输出变量是一个虚拟变量。这将是一个分类问题，我想尝试不同的选项，如逻辑回归和基于树的模型。当我用pandas导入我的数据集时，我注意到一些变量被赋予了int64的数据类型，实际上它们是分类变量。这会成为机器学习算法的问题吗？如果这是一个愚蠢的问题，请原谅我......我对机器学习世界还是比较新的，虽然我没有在文献中看到过关于这个主题的任何内容，但我确实想确保我不会离开在我开始之前跟踪。

1 个答案:

答案 0 :(得分：0)

它将用于scikit-learn，因为scikit-learn不支持分类功能。它最终将整数值视为数字特征，并且不会像您希望的那样表现。它确实支持以数字形式重新编码它们（参见here），但与使用自然支持数字和分类特征的库和算法相比，这是次优的。