我只是从Pandas和Python开始。我有一个来自银行的年度交易的CSV转储。每个纳税季节,我都需要准备一份每个月(和特定日期)达到的最大值的报告,以及整体的最大值:
样本数据:
df = pd.DataFrame(data={'Date': ['2018-01-01','2018-01-05', '2018-05-01'],
'Transaction': ['CREDIT', 'DEBIT', 'CREDIT'],
'Amount': [100.20, -50.00, 200.00]})
我不知道如何在嵌入式DataFrame上使用pd.to_datetime。
尝试过df['Date'].apply(pd.to_datetime)
,但出错了
ValueError:('未知字符串格式:','CREDIT','在索引处发生 #交易')
df = pd.read_csv("~/Downloads/cheq.csv", parse_dates=[0], na_values="n/a")
df = pd.DataFrame(data, columns=['Date', 'Transaction', 'Amount'])
df.set_index(['Date'], drop=True, inplace=True)
grouped = df.groupby(pd.Grouper(freq="M")) # DataFrameGroupBy (grouped by Month)
for g, v in grouped:
print(g, v.max())
输出:
2018-01-31 00:00:00 Transaction DEBIT
Amount 100.02
dtype: object
2018-02-28 00:00:00 Transaction CREDIT
Amount 200
dtype: object
我希望看到的是(某种形式):
2018-01-01 00:00:00 Transaction DEBIT
Amount 100.02
2018-02-01 00:00:00 Transaction CREDIT
Amount 200
感谢您的帮助。
答案 0 :(得分:1)
您具有转换日期格式,然后应用groupBy。 试试吧!
df = pd.DataFrame(data={'Date': ['2018-01-01','2018-01-05', '2018-05-01'],
'Transaction': ['CREDIT', 'DEBIT', 'CREDIT'],
'Amount': [100.20, -50.00, 200.00]})
df['Date'] = pd.to_datetime(df['Date'])
print(df.groupby(df['Date'].dt.strftime('%B')).max())
#output:
Amount Date Transaction
Date
January 100.2 2018-01-05 DEBIT
May 200.0 2018-05-01 CREDIT