Question

我有一个包含多个国家和地区的数据集。数据中每个国家/地区年度组合都是一行。列之间有多个变量。其中一些国家/地区缺少最近几年的数据，从而产生了NaN。

对于某些列，我想通过使用该列针对该国家/地区的现有数据来推断这些缺失值。

例如，我已经创建了groupby'国家/地区ISO'对象，该对象对于插值非常有用。

这里有一个关于用函数外推缺失值的答案，但是我无法找到在groupby上下文中使用相同方法的方法。以下是我当前用于插值的groupby的代码。

# Importing the libraries
import pandas as pd

# Importing the data
dataset = pd.read_excel(file.xlsx')

byISO = dataset.groupby(['country'])\

#Interpolation
dataset[['col1','col2']] = byISO[[
                'col1','col2']]\
     .apply(lambda i: i.interpolate(method='linear', limit_area='inside'))

现在，代码无法运行，但是我想做一些与插值类似的操作-以这种方式获得一组外推数字

推断缺失数据以按熊猫数据框分组

0 个答案: