我有一个DataFrame(dataframeA),其中包含日期列,所有格式都是这样的
日期
19960826个
19960826个
19970303个
19970320个
19970905
和一列值
值
100个
35个
11个
37个
...
和一组组
groupK
组1
群邑
...
给定另一个DataFrame,dataframeB,有两列:日期格式为yyyymmdd,以及group。对于dataframeB中的每一行,如何绘制每个组的日期之前和之后60天内的值。
即。如果dataframeB第一行是
20050101 groupM
图表(在Y轴上)dataframeA中的值,其中日期在2005年1月1日之前或之后的50天内,并且该组是groupM。
答案 0 :(得分:1)
以下是一些示例数据:
import pandas as pd
import numpy as np
import string
start_date = '20050101'
drange = pd.date_range(start_date, periods=100, freq='D')
possible_groups = ['A','B','C','D','E','F']
chosen = np.random.choice(possible_groups, len(drange), replace=True)
groups = pd.Series(chosen).apply(lambda x: 'group'+x)
values = np.random.randint(1, 100, len(drange))
dfA = pd.DataFrame({'date':drange, 'grp':groups, 'value':values})
dfB = pd.DataFrame({'date':drange, 'grp':groups})
注意:如果您需要使日期时间对象看起来像YYYYMMDD
,您可以使用strftime()
并根据需要切换回日期时间,例如:
drange = pd.date_range(start_date, periods=100, freq='D').strftime('%Y%m%d')
现在,假设由于某种原因需要将这些数据帧分开(即不允许merge()
),以下内容应该有效。
def plot_range(data, within):
(
dfA.set_index('date')
.loc[dfA.grp.values == data.grp]
.loc[data.date-pd.Timedelta(days=within):
data.date+pd.Timedelta(days=within)]
.plot(title=data.grp)
)
within = 50 # set within to the desired range in days around a date
dfB.apply(plot_range, axis='columns', args=(within,))
以下几天的输出示例'子集:
subset = 3
within = 10
dfB.sample(subset).apply(plot_range, axis='columns', args=(within,))