我在Python编码。 Dataframe full_df 具有以下功能: building_id 和 log_price 。我想计算由 building_id 分组的 log_price 的平均值以及在 full_df 中创建的新功能 mean_log_price ,存储 log_price 的平均值,根据其 building_id 。
我有以下代码:
full_df['mean_log_price'] = full_df.groupby(['building_id'],as_index=False).agg(np.mean)['log_price']
然而,当我查看 full_df 时, mean_log_price 的某些值是NaN,并且在我做一些检查后某些值不正确。为什么会发生这种情况以及替代方法是什么?提前致谢。
答案 0 :(得分:2)
agg 也会改变结果的长度并破坏索引,因此通过将较小的对象分配给较大的数据帧,您将无法获得正确的结果。这里需要A
,它保留了系列的长度和索引,以便可以将其分配回数据框:
complex_computation