这是代码。
'''
for i in range(0,len(azdias.columns.values)):
azdias[str(feat_info.iloc[i,0])] = azdias[(feat_info.iloc[i,0])].replace([feat_info.iloc[i,3]],np.NaN)
'''
azdias是数据集本身,它是一个数据框。
feat_info是另一个数据集,已作为数据框导入到熊猫中。 0列包含要素名称,这是Azdias数据集中的列名称 第三列包含值XX,例如表示缺少数据/错误数据
我想用具有feat_info数据集给出的缺少代码的NaNs替换azdias中的数据。
feat_info文件如下所示...
'''
attribute;information_level;type;missing_or_unknown
AGER_TYP;person;categorical;[-1,0]
ALTERSKATEGORIE_GROB;person;ordinal;[-1,0,9]
ANREDE_KZ;person;categorical;[-1,0]
'''
Azdias看起来像这样...
'''
GER_TYP ALTERSKATEGORIE_GROB ANREDE_KZ CJT_GESAMTTYP FINANZ_MINIMALIST FINANZ_SPARER FINANZ_VORSORGER FINANZ_ANLEGER FINANZ_UNAUFFAELLIGER FINANZ_HAUSBAUER ... PLZ8_ANTG1 PLZ8_ANTG2PLZZ_ANTG2PLZZ_ANTG2PLZZ_ANTG2 0 -1 2 1 2.0 3 4 3 5 5 3 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1 -1 1 2 5.0 1 5 2 5 4 5 ... 2.0 3.0 2.0 1.0 1.0 5.0 5.0 4.0 3.0 5.0 4.0 2 -1 3 2 3.0 1 4 1 2 3 5 ... 3.0 3.0 1.0 0.0 1.0 1.0 4.0 4.0 3.0 5.0 2.0 3 2 4 2 2.0 4 2 5 2 1 2 ... 2.0 2.0 2.0 0.0 1.0 1.0 3.0 4.0 2.0 3.0 3.0 4 -1 3 1 5.0 4 3 4
click here to see the above in table Azdias数据集为900,000 * 85 aprox