如何按特征为一组缺失数据进行推断(或预测)?

时间:2019-05-15 07:37:16

标签: python

我有一个包含40多个变量的大型数据集。我正在尝试使用多种技术在这些变量中估算缺失的数据。这些技术之一是对每个组的值进行前推(预测)和后推,但我无法进行这项工作。

我尝试对“外部”值运行插值,因为我已经有了用于插值这些列的值的代码,但这没有用。

我想事情会变得有些复杂,因为我也在小组级别进行估算。我有多个组:国名,收入组和与年配对的收入组。

# Create the group objects
byISO = dataset.groupby(['country ISO'])
byIG = dataset.groupby(['WBG Income Group'])
bytIG = dataset.groupby(['WBG Income Group','Year'])

#Imputing with extrapolation
dataset[['column1','column2']] = byISO[['column1','column2']]\
     .apply(lambda i: i.interpolate(method='linear',limit_area='outside'))

插值仅填充列的最后一个值,而无需实际进行推断或预测,这正是我所需要的。

0 个答案:

没有答案