根据数据块对数据进行聚类

时间:2021-04-09 13:26:38

标签: python pandas cluster-analysis

我有一个如下所示的数据集:

<头>
f_id s_id 日期
13345ERSS 99768FKLL 01-01-2005

我的数据集中有 1.37 亿行,所以读取需要很长时间,我是这样读取的:

import pandas as pd

df = pd.read_csv("datasets.csv")

所以我想将数据聚集到我从 2005 年到 2018 年的一组日期中并避免重叠,所以我认为每年 2 个样本是黄油。

S1 从 1-1-2005 到 1-6-2005 S2 从 2-6-2005 到 30-12-2005

以此类推到整年

所以我想到了这样的事情:

  rows = df.sample(n = 2)
  s1 = []
  for dt in df['date']:
      if (dt['date'] == 01/01/2005 && dt['date'] == 01/06/2005):
           s1.append(dt)

我不确定要使用什么,我尝试使用 Knn 算法,但无法进行聚类,因为我的 ID 有字母表且无法转换为浮点数。

我想做聚类然后在networkx中做社区检测

所以我已经像这样读取了网络的节点和边缘:

  G = nx.from_pandas_edgelist(df, source='src', target='dst', edge_attr='lf_date')

请提供任何提示或解释!我是 Python 新手,正在尽我所能

0 个答案:

没有答案
相关问题