带有pandas的分类变量

时间:2014-12-01 20:22:06

标签: python pandas csv dataframe types

加载看起来像这样的csv文件时

0 1 male 3 4 5 6
1 0 female 6 7 8 9
.....

是否可以自动将第三列转换为整数,例如0为男性,1为女性?

1 个答案:

答案 0 :(得分:1)

read_csv接受名为converters的参数。这可用于在读入文件时将函数应用于特定列。converters应作为以下格式的字典传入:

{column_index: function_to_apply}

您可以使用此功能将函数应用于第三列。您需要做的就是设置函数以从字典d获取值,该字典将"male"映射到0"female"1

>>> d = {"male": 0, "female": 1}
>>> pd.read_csv(file.csv, converters={2: d.get})
...
0 1 0 3 4 5 6
1 0 1 6 7 8 9
...