PySpark-根据频率绘制两列

时间:2020-04-20 14:06:07

标签: python pandas apache-spark pyspark

我正在尝试对数据集进行可视化。

我正在尝试做一些在条形图上显示分布的事情。该对象是一个火花数据框,我将依次将其转换为熊猫。但是,我现在只能显示总和,但是显示严重性的分布方式。

state_severity_freq = df.groupBy('State','Severity').count().orderBy('count',ascending=False).collect()

我访问State的数据并用以下方式计数:

b = sns.barplot(pd_states['State'],pd_states['count'])

示例:

Row(State='GA', Severity='2', count=34699),
Row(State='OH', Severity='2', count=34506),
Row(State='SC', Severity='2', count=33264),
Row(State='GA', Severity='4', count=32241),
Row(State='SC', Severity='3', count=31355),

从这些数据点,我想显示一列,该列在X轴上具有哪个状态,在Y轴上具有多频繁。我很好,每个状态的严重性彼此并置(Something like this),而是将其放在不同颜色的一列上以显示某个状态的总严重性。

0 个答案:

没有答案