非常简单的问题:
我想要适合回归模型。我已经让大熊猫知道这些变量是绝对的。示例代码:
bikes_reg['month'] = bikes_reg['month'].astype('category')
我是否需要创建虚拟变量,或者在我适应它时模型会自动创建吗?
一般的经验法则是什么?每次我想使用分类变量时,是否需要创建虚拟变量?
答案 0 :(得分:0)
指定astype('category')
有助于python理解以下内容:
但是,要将分类数据输入模型,需要将其数字化(如果是字符串)并进行标准化。
您可以使用`sklearn.preprocessing.LabelEncoder来规范化标签
>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6])
array([0, 0, 1, 2]...)
或者,您也可以使用sklearn.preprocessing.OneHotEncoder
技术