我有一个使用DBSCAN生成的群集标签的数据框,我正在计算群集标签的频率。我可以使用df['cluster_labels'].value_counts()
来打印频率,但是当我将其写入新文件时,我只是得到了簇的数量而不是相应的标签。如何编写此文件以写入具有群集标签和频率的新文件?以下是截图和代码。
打印时:
写作时:
df['cluster_labels'] = cluster_labels
cluster_counts = df['cluster_labels'].value_counts()
print cluster_counts
cluster_counts.to_csv('G:\Programming Projects\GGS 681\dmv_tweets_20170309_20170314_cluster_counts.csv', index=False, header=True)
df_filtered = df[cluster_labels>-1]
cluster_outputs = pd.DataFrame(df_filtered)
#cluster_outputs.to_csv('G:\Programming Projects\GGS
681\dmv_tweets_20170309_20170314_cluster_outputs.csv', index=False, header=True)
将新标头传递到文件时出错
答案 0 :(得分:1)
这是因为您使用的是index=False
。将行中的index=False
更改为index=True
cluster_counts.to_csv('G:\Programming Projects\GGS 681\dmv_tweets_20170309_20170314_cluster_counts.csv', index=False, header=True)
您可以在DataFrame.to_csv