我正在研究一个有大量缺失信息的数据集。 我知道我可以使用FillNA,但我希望将更新基于另一列的分箱值。
选择缺失数据:
missing = train[train['field'].isnull()]
Bin数据(这可以正常工作):
filter_values = [0, 42, 63, 96, 118, 160]
labels = [1,2,3,4,5]
out = pd.cut(missing['field2'], bins = filter_values, labels=labels)
counts = pd.value_counts(out)
print(counts)
现在,根据bin分配,我想为分配给此bin的所有数据设置正确的bin标签到missing/train['field']
。
答案 0 :(得分:1)
IIUC:
您只需要fillna
train['field'] = train['field'].fillna(out)