我有一个包含ID,名称和地址的DataFrame。我想通过亲和传播或其他算法对地址进行聚类,以便对地址字符串进行模糊匹配/分组。这部分我有:
import pandas as pd
import pyodbc
import numpy as np
from sklearn.cluster import AffinityPropagation
from pyjarowinkler import distance
from sklearn import metrics
conn = pyodbc.connect(r'DSN=<UserDSN>;')
df = pd.read_sql('select * from <InputTable>', conn)
addr = df['Addresses']
addr = np.asarray(addr)
jw = np.array([[distance.get_jaro_distance(w1,w2) for w1 in addr] for w2 in addr])
affprop = AffinityPropagation(affinity="precomputed", damping=.5)
affprop.fit(jw)
for cluster_id in np.unique(affprop.labels_):
exemplar = addr[affprop.cluster_centers_indices_[cluster_id]]
cluster = np.unique(addr[np.nonzero(affprop.labels_==cluster_id)])
cluster_str = ", ".join(cluster)
print(" - *%s:* %s" % (exemplar, cluster
现在,如何通过拥有一个&#34; Cluster&#34;来使这个聚类变得有用。 DataFrame中的列?基本上,我想将每个群集的exemplar
添加回DataFrame中的相应行。我是否需要某种独特的ID才能做到这一点?这样做的目的是识别数据中的重复行,因此当前没有唯一ID。但是,也许我可以以某种方式在原始DataFrame中添加一个,因为每一行作为一个整体将是唯一的?
感谢大家的任何见解!
答案 0 :(得分:0)
df['new_col'] = list(affprop.labels_)