熊猫每天(不同日期)使用Winsorizing移除特定值的异常值

时间:2020-02-03 10:02:08

标签: python pandas dataframe outliers

好的,所以如果它们高于当前日期的第三四分位数,则需要删除这些值。 抱歉,英语不是我的母语。

- Date............. | | Value1
- 4/24/2019 1:44:29 | | 703.13
- 4/24/2019 1:46:29 | | 593.75
- 4/24/2019 1:48:29 | | 609.38
- 4/25/2019 1:50:29 | | 1221.88
- 4/25/2019 1:52:29 | | 609.38
- 4/25/2019 1:54:29 | | 671.88
- 4/26/2019 1:56:29 | | 671.88
- 4/26/2019 1:58:29 | | 593.75
- 4/26/2019 1:58:29 | | 600.75

我能够做到,但只适用于单个日期,这是我针对单个日期的代码。

import pandas as pd
df = pd.read_excel()

pd.to_numeric(df['Value1'], errors = 'ignore')

df['Value1'].describe()
Q3 = df['Value1'].describe()['75%']
Q1 = df['Value1'].describe()['25%']
IQR = Q3 - Q1

UF = Q3 + (1.5*IQR)

df_validated = df[df.Value1 < UF ]

df_validated.to_csv('Validated Value1.csv')

我完全迷路了,如果我有不同的日期,我也不知道该怎么办:(

0 个答案:

没有答案