这可能是一个愚蠢的问题,但我仍想得到一个明确的答案。 我通过处理缺失值,将因子更改为数值数据来清理数据,然后将数据保存到excel(.csv)。
稍后我阅读了此数据,发现分类字段的值被转换为float数据类型。
我使用下面的代码将其转换回“对象”数据类型,但是,它没有用。
data.info()
categorical_feature = ['NAME_CONTRACT_TYPE', 'CODE_GENDER',
'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'NAME_TYPE_SUITE',
'NAME_INCOME_TYPE', 'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS',
'NAME_HOUSING_TYPE', 'OCCUPATION_TYPE', 'WEEKDAY_APPR_PROCESS_START',
'ORGANIZATION_TYPE', 'FONDKAPREMONT_MODE', 'HOUSETYPE_MODE',
'WALLSMATERIAL_MODE', 'EMERGENCYSTATE_MODE']
data[categorical_features] = data[categorical_features].astype(object)
data.info()
结果:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Columns: 122 entries, SK_ID_CURR to AMT_REQ_CREDIT_BUREAU_YEAR
dtypes: float64(121), int64(1)
memory usage: 286.2 MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Columns: 122 entries, SK_ID_CURR to AMT_REQ_CREDIT_BUREAU_YEAR
dtypes: float64(121), int64(1)
memory usage: 286.2 MB