将pandas用于大型数据集,我已经将其缩减为我需要的信息。基本上我想根据他们的帖子中使用的主题标签的数量来绘制来自两个不同国家的用户的朋友数量的分布,作为并排的箱图(我称之为分组的箱图)。 6,我将此视为一个分类变量)。这导致在同一帧中总共有2 * 6 = 12个箱图,以便于比较。
我做了一些研究,我知道df.boxplot(by ='x'),但这并不能说明比较这两个国家的额外水平。
数据集包含主题标签数量(int),国家/地区(字符串),朋友数量(int)的列。
值得注意的是,我在Python中绘图很新,包括轴和子图等,所以请尽可能在答案中加入一些额外的信息。
编辑:小数据集样本
#followers #friends #mentions #hashtags country lang_user place
450 53 71 1 0 ja es NaN
489 54 34 1 1 ja es NaN
867 1569 1999 0 0 en es NaN
1021 224 242 0 3 ja ja NaN
1022 377 506 1 5 ja ja NaN
1023 315 305 0 2 ja ja NaN
答案 0 :(得分:4)
我喜欢用seaborn进行这种可视化。 我猜到了额外的水平"你的意思是叫做" hue"。
import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",
data=tips, palette="Set3")
查看此文档: https://seaborn.pydata.org/generated/seaborn.boxplot.html