scikit学习,线性回归中的分类(但数值)特征

时间:2020-04-24 14:03:12

标签: python machine-learning scikit-learn linear-regression

我在scikit-learn中使用线性回归,我的数据集包含一些分类但数值的特征。 我的意思是说,有一些功能,例如房屋所在的地区的价值,由1到7之间的整数表示:这个数字越高,房屋的价值就越高。 我应该在使用诸如OneHotEncoder之类的编码器进行线性回归之前,对使用数字表示类别(城市地区)的特征进行预处理吗?还是仅当类别用字符表示时才是强制性的? 预先谢谢您。

1 个答案:

答案 0 :(得分:0)

如果我的理解正确,则您无需对它们进行热编码,因为它们是顺序的,即顺序中有含义。例如,如果数字是产品代码,并且没有7表示“大于”或“大于” 4的感觉,那么您可能希望对这些变量进行一次热编码,但是在这种情况下,您将丢失信息通过一键编码。

相关问题