如何通过模糊匹配字符串聚类Pandas数据帧行?

时间:2017-04-03 15:36:24

标签: python pandas scikit-learn fuzzy-logic

我有一个包含ID,名称和地址的DataFrame。我想通过亲和传播或其他算法对地址进行聚类,以便对地址字符串进行模糊匹配/分组。这部分我有:

import pandas as pd
import pyodbc
import numpy as np
from sklearn.cluster import AffinityPropagation
from pyjarowinkler import distance
from sklearn import metrics

conn = pyodbc.connect(r'DSN=<UserDSN>;')
df = pd.read_sql('select * from <InputTable>', conn)

addr = df['Addresses']
addr = np.asarray(addr)

jw = np.array([[distance.get_jaro_distance(w1,w2) for w1 in addr] for w2 in addr])

affprop = AffinityPropagation(affinity="precomputed", damping=.5)
affprop.fit(jw)

for cluster_id in np.unique(affprop.labels_):
    exemplar = addr[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(addr[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)
    print(" - *%s:* %s" % (exemplar, cluster

现在,如何通过拥有一个&#34; Cluster&#34;来使这个聚类变得有用。 DataFrame中的列?基本上,我想将每个群集的exemplar添加回DataFrame中的相应行。我是否需要某种独特的ID才能做到这一点?这样做的目的是识别数据中的重复行,因此当前没有唯一ID。但是,也许我可以以某种方式在原始DataFrame中添加一个,因为每一行作为一个整体将是唯一的?

感谢大家的任何见解!

1 个答案:

答案 0 :(得分:0)

df['new_col'] = list(affprop.labels_)