为pyspark

时间:2018-10-07 14:25:27

标签: python dataframe matplotlib pyspark

我有一个包含两列的DF:日期(以字符串格式)和计数:

+---------+-----+
|     date|count|
+---------+-----+
|  2018-05|    1|
|  2018-02|    4|
|  2017-11|   41|
|  2017-04|   21|
|  2017-02|   13|

,我想创建一个绘图,其中X轴为日期(日期之间的间隔为一个月),Y轴为计数数字。对于单个列,它可以工作,但是对于两个列,如何执行呢?

import matplotlib.pyplot as plt
from pyspark_dist_explore import hist

def draw_histogram(df1):
    fig, axes = plt.subplots(nrows=2, ncols=2)
    fig.set_size_inches(20, 20)
    hist(axes[0, 0], [df1], bins=20, color=['red'])
    axes[0, 0].set_xlabel('X-Axis')
    axes[0, 0].set_ylabel('Y-Axis')
    plt.savefig('Histogram')

df_page = df.withColumn("date", f.concat(f.year("editTime"), f.lit('-'), format_string("%02d", f.month("editTime"))))
    df = df_page.groupBy("date", "title").count().orderBy(desc("count"))

draw_histogram(df)

我遇到了错误: 再添加一列,请使用add_data()添加多列DataFrames

0 个答案:

没有答案