Pyplot堆积直方图 - 列中出现的数量

时间:2017-12-14 07:06:17

标签: python pandas matplotlib histogram stacked

我正在尝试在直方图中显示从防火墙日志中收集的数据,这样我就可以为文件中的每个日期创建一个条形图,并在条形图中堆积某个列中的出现次数。

我在这里查看了几个例子,但它们似乎都基于这样一个事实:我知道特定列中有什么值 - 而我在这里想要实现的是提供直方图而不需要了解所有可能的领域。

在示例中,我使用了协议作为列:

#!/usr/bin/python

import pandas as pd
import numpy as np
import glob
import matplotlib.pyplot as plt

csvs = glob.glob("*log-export.csv")
dfs = [pd.read_csv(csv, sep="\xff", engine="python") for csv in csvs]

df_merged = pd.concat(dfs).fillna("")

data = df_merged[['date', 'proto']]
np_data = np.array(data)

plt.hist(np_data, stacked=True)
plt.show()

但是这显示如下图:

histogram

我想完成这样的事情:

stacked

有任何建议如何实现这一目标?

1 个答案:

答案 0 :(得分:1)

<强>设置
我不得不补充数据,因为你没有提供任何数据。

df = pd.DataFrame(dict(
    Date=pd.date_range(end=pd.to_datetime('now'), periods=100, freq='H'),
    Proto=np.random.choice('UDP TCP ICMP'.split(), 100, p=(.3, .5, .2))
))

<强>解决方案
使用pd.crosstab然后绘制

pd.crosstab(df.Date.dt.date, df.Proto).plot.bar(stacked=True)

enter image description here