我正在尝试对自行车共享数据集进行分析。部分分析包括展示周末'日期明智的需求。 我在最后5行的pandas中的数据框看起来像这样。
这是我的日期与总骑行情节的代码。
import seaborn as sns
sns.set_style("darkgrid")
plt.plot(d17_day_count)
plt.show()
我正在使用带有matplotlib和seaborn库的Python。
答案 0 :(得分:3)
我尝试使用已接受答案中的代码,但使用索引的方式,时间序列中的最后一个周末并没有完全突出显示,尽管当前显示的图像表明了什么(这主要以频率为 6小时或更长时间)。此外,如果数据的频率高于每天,它也不起作用。这就是为什么我在这里分享一个使用 x 轴单位的解决方案,以便可以突出显示周末(或任何其他重复时间段)而不会出现与索引相关的任何问题。
这个解决方案只需要 6 行代码,它适用于任何频率。在下面的例子中,它突出显示了完整的周末,这使得它比小频率(例如 30分钟)将产生许多多边形来覆盖整个周末。
x 轴范围用于计算图所涵盖的时间范围(以天为单位),这是用于 matplotlib dates 的单位。然后计算 weekends
掩码并将其传递给 fill_between
绘图函数的 where
参数。遮罩被处理为右排,因此在这种情况下,它们必须包含星期一,以便在星期一 00:00 之前绘制高光。由于绘制这些突出显示可能会在周末接近限制时改变 x 轴限制,因此绘制后 x 轴限制将设置回原始值。
请注意,与 axvspan
不同的是,fill_between
函数需要 y1
和 y2
参数。出于某种原因,使用默认的 y 轴限制会在图框与周末亮点的顶部和底部之间留下一个小间隙。这个问题可以通过在创建绘图后立即运行 ax.set_ylim(*ax.get_ylim())
来解决。
import numpy as np # v 1.19.2
import pandas as pd # v 1.1.3
import matplotlib.pyplot as plt # v 3.3.2
import matplotlib.dates as mdates
# Create sample dataset
rng = np.random.default_rng(seed=1234) # random number generator
dti = pd.date_range('2017-01-01', '2017-05-15', freq='D')
counts = 5000 + np.cumsum(rng.integers(-1000, 1000, size=dti.size))
df = pd.DataFrame(dict(Counts=counts), index=dti)
# Draw pandas plot: x_compat=True converts the pandas x-axis units to matplotlib
# date units (not strictly necessary when using a daily frequency like here)
ax = df.plot(x_compat=True, figsize=(10, 5), legend=None, ylabel='Counts')
ax.set_ylim(*ax.get_ylim()) # reset y limits to display highlights without gaps
# Highlight weekends based on the x-axis units
xmin, xmax = ax.get_xlim()
days = np.arange(np.floor(xmin), np.ceil(xmax)+2)
weekends = [(dt.weekday()>=5)|(dt.weekday()==0) for dt in mdates.num2date(days)]
ax.fill_between(days, *ax.get_ylim(), where=weekends, facecolor='k', alpha=.1)
ax.set_xlim(xmin, xmax) # set limits back to default values
# Create appropriate ticks using matplotlib date tick locators and formatters
ax.xaxis.set_major_locator(mdates.MonthLocator())
ax.xaxis.set_minor_locator(mdates.MonthLocator(bymonthday=np.arange(5, 31, step=7)))
ax.xaxis.set_major_formatter(mdates.DateFormatter('\n%b'))
ax.xaxis.set_minor_formatter(mdates.DateFormatter('%d'))
# Additional formatting
ax.figure.autofmt_xdate(rotation=0, ha='center')
title = 'Daily count of trips with weekends highlighted from SAT 00:00 to MON 00:00'
ax.set_title(title, pad=20, fontsize=14);
如您所见,无论数据从哪里开始和结束,周末始终会在整个范围内突出显示。
答案 1 :(得分:0)
您可以使用axvspan
轻松突出显示区域,以突出显示您可以浏览数据框索引的区域并搜索周末天数。我还添加了一个例子,用于突出显示工作周内的“占用时间”(希望这不会让事情变得混乱)。
我已根据天数为数据框创建了虚拟数据,并为数小时创建了另一个数据框。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# dummy data (Days)
dates_d = pd.date_range('2017-01-01', '2017-02-01', freq='D')
df = pd.DataFrame(np.random.randint(1, 20, (dates_d.shape[0], 1)))
df.index = dates_d
# dummy data (Hours)
dates_h = pd.date_range('2017-01-01', '2017-02-01', freq='H')
df_h = pd.DataFrame(np.random.randint(1, 20, (dates_h.shape[0], 1)))
df_h.index = dates_h
#two graphs
fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True)
#plot lines
dfs = [df, df_h]
for i, df in enumerate(dfs):
for v in df.columns.tolist():
axes[i].plot(df[v], label=v, color='black', alpha=.5)
def find_weekend_indices(datetime_array):
indices = []
for i in range(len(datetime_array)):
if datetime_array[i].weekday() >= 5:
indices.append(i)
return indices
def find_occupied_hours(datetime_array):
indices = []
for i in range(len(datetime_array)):
if datetime_array[i].weekday() < 5:
if datetime_array[i].hour >= 7 and datetime_array[i].hour <= 19:
indices.append(i)
return indices
def highlight_datetimes(indices, ax):
i = 0
while i < len(indices)-1:
ax.axvspan(df.index[indices[i]], df.index[indices[i] + 1], facecolor='green', edgecolor='none', alpha=.5)
i += 1
#find to be highlighted areas, see functions
weekend_indices = find_weekend_indices(df.index)
occupied_indices = find_occupied_hours(df_h.index)
#highlight areas
highlight_datetimes(weekend_indices, axes[0])
highlight_datetimes(occupied_indices, axes[1])
#formatting..
axes[0].xaxis.grid(b=True, which='major', color='black', linestyle='--', alpha=1) #add xaxis gridlines
axes[1].xaxis.grid(b=True, which='major', color='black', linestyle='--', alpha=1) #add xaxis gridlines
axes[0].set_xlim(min(dates_d), max(dates_d))
axes[0].set_title('Weekend days', fontsize=10)
axes[1].set_title('Occupied hours', fontsize=10)
plt.show()