我有以下表格的数据:
特征1特征2特征3 --->数值
问题是功能1类似,字符串值如公司名称,功能2也是类别的字符串值,功能3只是时间戳。
我想训练一个模型,假设这些特征能够预测数值。
我知道可以使用回归。
但是,
如何转换分类功能以便在回归中使用?
如何利用时间戳值进行预测?我应该提取月份,小时数(0-23行)并将它们分成更多的分类值吗?
感谢。
答案 0 :(得分:1)
我们知道机器学习算法无法直接理解文本,因此我们需要将这些字符串值转换为一个热矢量表示。
我们使用一个热编码器来执行类别的“二值化”并将其作为训练模型的功能包含在内
所以你可以用pandas, 例如
import pandas as pd
df =pd.DataFrame({'A':["google","amazon","microsoft"]})
pd.get_dummies(df)
A_amazon A_google A_microsoft
0 1 0
1 0 0
0 0 1
将变量转换为上述格式后,您可以应用回归 感谢