熊猫 - 如何根据子类别有效地标记异常值?

时间:2017-03-09 17:23:36

标签: python pandas

给定一个包含3列的数据框df(例如:'Country''Car''Price'),如何检查与均值相差3个标准偏差的异常值,分别为每个国家和汽车。以下代码有效,但效率不高。

sd = pd.DataFrame()
for country in df['Country'].unique():
    for car in df['Car'].unique():
        chunk = df[(df['Country']==country) & (df['Car']==car)]
        chunk['outlier'] = (np.abs(chunk['Price']-chunk['Price'].mean())) > 3*chunk['Price'].std()
        sd = pd.concat([sd, chunk])

0 个答案:

没有答案