我试图使用与DBSCAN的最小编辑距离来提取推文的高发句法结构。
我在POS上标记10k条推文,然后预先计算它们的最小距离并将其存储在距离矩阵中。然后我将距离矩阵给DBSCAN。无论我的eps和min_sample大小有多大或多小,我都不会超过4个集群(eps = 1,min_sample = 13)。对于这种大小的数据,句法结构应该产生更多和/或更大的聚类。
这是我对正在发生的事情的工作理论:
如果您认为我遗失了某些内容,或者是否有其他算法可以帮助我完成相同的群集任务,请告诉我。
db = DBSCAN(eps=3, min_samples=10, metric='precomputed')
db.fit(df)
print (set(db.labels_))
{0, -1}
我之所以选择DBSCAN是因为我不知道会发生什么样的集群。