我有非常大的应变读数评估数据,这些数据作为2d数组导入到python中。简短示例:
userId
某些测量值可以直接解释为测量误差(例如:X = np.array([[210, 211, 209, 10000, 215, -5000],
[220, 221, 219, 10000, 225, -10000],
1400, 225, 230, 10000, 235, -98]])
)。我用一个间隔来定义它们(例如:10000,-5000
)。然后应从数组中删除这些值,并用适当的值替换。测量误差应内插或用其他方法代替。
我已经尝试了Panda函数<-10, >1000
和scikit-learn的插补类。使用asfreq()
时,我遇到的问题是它仅填充asfreq()
值。使用NaN
时,只有四种策略(平均值,中位数,最频繁和不变)。