对于那种情况我很喜欢pandas或python,我正在使用311数据集。我试图获得的输出是一个有5个时间序列的图,每个纽约市区一个。图中的每个点代表每个"创建日期"的投诉总数。在那段时间里。我的数据如下:
机构名称投诉类型\自治市镇
创建日期
2013-08-30 23:58:55纽约市警察局噪音 - 车辆布鲁克林
2013-08-30 23:58:28纽约市警察局噪音 - 车辆女王
2013-08-30 23:57:46纽约市警察局噪音 - 街/人行道MANHATTAN
2013-08-30 23:55:07纽约市警察局噪音 - 街/人行道女王
2013-08-30 23:55:06纽约市警察局噪音 - 商业曼哈顿
X =创建日期,Y =投诉总数。
到目前为止我的代码(忽略了一些stackoverflow查询和库):
df=pd.read_csv(sys.argv[1], parse_dates=True)
df.set_index("Created Date", inplace=True)
df2=df[["Borough","Complaint Type"]]
df3=df2.groupby("Complaint Type").count()
df3.plot()
plt.show()
我做了一些改动,但仍然没有改变:
df=pd.read_csv(sys.argv[1], parse_dates=True)
df.set_index("Created Date", inplace=True)
df2=df[["Borough","Complaint Type"]]
df3=df[df2.groupby("Complaint Type")].count()
df3.plot()
我真的很感激任何帮助。 :)