Question

我试图使用与DBSCAN的最小编辑距离来提取推文的高发句法结构。

我在POS上标记10k条推文，然后预先计算它们的最小距离并将其存储在距离矩阵中。然后我将距离矩阵给DBSCAN。无论我的eps和min_sample大小有多大或多小，我都不会超过4个集群（eps = 1，min_sample = 13）。对于这种大小的数据，句法结构应该产生更多和/或更大的聚类。

这是我对正在发生的事情的工作理论：

如果您认为我遗失了某些内容，或者是否有其他算法可以帮助我完成相同的群集任务，请告诉我。

db = DBSCAN(eps=3, min_samples=10, metric='precomputed')
db.fit(df)
print (set(db.labels_))
{0, -1}

我之所以选择DBSCAN是因为我不知道会发生什么样的集群。