我有以下数据框data
(在我的真实数据集中,我有更多数据):
import pandas as pd
from io import StringIO
data = pd.read_table(StringIO("""time_diff avg_trips_per_day
631 1.0
231 1.0
431 1.0
7031 1.0
17231 1.0
20000 20.0
21000 15.0
22000 10.0"""), delim_whitespace=True)
为了查看time_diff
值的分布,我创建了这个条形图:
import seaborn as sns
data['timegroup'] = pd.qcut(data['time_diff'], 150)
sns.barplot(x='timegroup', y='avg_trips_per_day', data=data, estimator=sum)
每个bin(avg_trips_per_day
)的值为timegroup
,并计算avg_trips_per_day
的总和。
我的结果如下:
因此,它确实不是我数据的最佳可视化。我认为概率密度图更适合。在X轴我希望看到avg_trips_per_day
的值,而Y轴应该包含概率。
我怎么能这样做?