Question

我有一个使用DBSCAN生成的群集标签的数据框，我正在计算群集标签的频率。我可以使用df['cluster_labels'].value_counts()来打印频率，但是当我将其写入新文件时，我只是得到了簇的数量而不是相应的标签。如何编写此文件以写入具有群集标签和频率的新文件？以下是截图和代码。

打印时：

写作时：

df['cluster_labels'] = cluster_labels
cluster_counts = df['cluster_labels'].value_counts()
print cluster_counts
cluster_counts.to_csv('G:\Programming Projects\GGS 681\dmv_tweets_20170309_20170314_cluster_counts.csv', index=False, header=True)

df_filtered = df[cluster_labels>-1]
cluster_outputs = pd.DataFrame(df_filtered)
#cluster_outputs.to_csv('G:\Programming Projects\GGS 
681\dmv_tweets_20170309_20170314_cluster_outputs.csv', index=False, header=True)

将新标头传递到文件时出错

Answer 1

这是因为您使用的是index=False。将行中的index=False更改为index=True

cluster_counts.to_csv('G:\Programming Projects\GGS 681\dmv_tweets_20170309_20170314_cluster_counts.csv', index=False, header=True)

您可以在DataFrame.to_csv

的documentation中看到这一点

将df.value_counts写入新文件

1 个答案: