我正在尝试: 1-定义一个离群标准(上(高)和下(低))。 3-计算每个观察值(每列) 2-标记异常值
我的数据集h_median(pandas数据框)有30列和4行,因此我需要一个循环。 我现在要定义标准:
def remove_outlier(h_median,variables):
q1 = h_median[variables].quantile(0.25)
q3 = h_median[variables].quantile(0.75)
iqr = q3-q1 #Interquartile range
fence_low = q1-1.5*iqr
fence_high = q3+1.5*iqr
df_out = h_median.loc[(h_median[variables]> fence_low) &
(h_median[variables]< fence_high)]
return df_out`
谢谢!