在机器学习中处理分类变量

时间:2018-05-30 10:05:49

标签: python machine-learning regression categorical-data

我有以下表格的数据:

特征1特征2特征3 --->数值

问题是功能1类似,字符串值如公司名称,功能2也是类别的字符串值,功能3只是时间戳。

我想训练一个模型,假设这些特征能够预测数值。

我知道可以使用回归。

但是,

  1. 如何转换分类功能以便在回归中使用?

  2. 如何利用时间戳值进行预测?我应该提取月份,小时数(0-23行)并将它们分成更多的分类值吗?

  3. 感谢。

1 个答案:

答案 0 :(得分:1)

我们知道机器学习算法无法直接理解文本,因此我们需要将这些字符串值转换为一个热矢量表示。

我们使用一个热编码器来执行类别的“二值化”并将其作为训练模型的功能包含在内

所以你可以用pandas, 例如

import pandas as pd 
df =pd.DataFrame({'A':["google","amazon","microsoft"]})

pd.get_dummies(df)

    A_amazon    A_google    A_microsoft
     0              1          0
     1              0          0
     0              0          1

将变量转换为上述格式后,您可以应用回归 感谢