我有一个时间序列数据集,其中有219000行用电量用于27栋房屋,并有2列,即:房屋代码和用电量,并考虑了我设置为索引的时间戳。 我使用了k均值,它没有给出任何错误,我添加了一个名为“集群”的列来预测每一行的集群。 聚类后的数据集如下所示:
我试图绘制数据,这是我的绘制代码:
plt.figure(figsize=(15,15))
for cluster_index in [0,1,2]:
plt.subplot(3,1,cluster_index + 1)
for index, row in data1.iterrows():
if row.iloc[-1] == cluster_index:
plt.plot(row.iloc[1:-1] ,marker='v', alpha=1)
plt.legend(loc="best")
plt.plot(kmeans.cluster_centers_[cluster_index], color='k' ,marker='o', alpha=1)
plt.xticks(rotation='vertical')
plt.ylabel('Power Consumption')
plt.title(f'Cluster {cluster_index}', fontsize=20)
plt.tight_layout()
plt.show()
代码没有给出任何错误,但是也没有给出任何结果,我让它运行了一个小时,没有结果。 我的问题是,数据是否庞大且需要花费大量时间进行绘制? 还是我的计算机正在经历任何崩溃或无休止的循环? 感谢您的帮助,如果有人弄清楚我应该在代码中进行哪些编辑才能使它起作用,我将非常高兴。