好的,所以如果它们高于当前日期的第三四分位数,则需要删除这些值。 抱歉,英语不是我的母语。
- Date............. | | Value1
- 4/24/2019 1:44:29 | | 703.13
- 4/24/2019 1:46:29 | | 593.75
- 4/24/2019 1:48:29 | | 609.38
- 4/25/2019 1:50:29 | | 1221.88
- 4/25/2019 1:52:29 | | 609.38
- 4/25/2019 1:54:29 | | 671.88
- 4/26/2019 1:56:29 | | 671.88
- 4/26/2019 1:58:29 | | 593.75
- 4/26/2019 1:58:29 | | 600.75
我能够做到,但只适用于单个日期,这是我针对单个日期的代码。
import pandas as pd
df = pd.read_excel()
pd.to_numeric(df['Value1'], errors = 'ignore')
df['Value1'].describe()
Q3 = df['Value1'].describe()['75%']
Q1 = df['Value1'].describe()['25%']
IQR = Q3 - Q1
UF = Q3 + (1.5*IQR)
df_validated = df[df.Value1 < UF ]
df_validated.to_csv('Validated Value1.csv')
我完全迷路了,如果我有不同的日期,我也不知道该怎么办:(