我的测试和训练数据有几列,其中值来自一组有限的字符串,例如:
Gas
TypeA
TypeB
TypeA
TypeC
TypeA
或
CentralisedHeating
Yes
No
为了在这些数据上拟合某些模型,我需要将这些字符串转换为数值,如下所示:
Gas
0
1
0
2
0
但是,因为我有很多这样的列,所以遍历每一列并创建编码会非常麻烦。
我可以使用scikit-learn
或pandas
或numpy
中的某些功能将字符串值转换为数字值吗?
我需要在训练数据和测试数据上应用相同的映射。
我目前正在阅读和存储我的数据:
import pandas as pd
df_train = pd.read_csv('../input/train.csv')
df_test = pd.read_csv('../input/test.csv')