使用DBSCAN从推文中提取句法信息

时间:2017-06-15 21:22:31

标签: python scikit-learn cluster-analysis dbscan

我试图使用与DBSCAN的最小编辑距离来提取推文的高发句法结构。

我在POS上标记10k条推文,然后预先计算它们的最小距离并将其存储在距离矩阵中。然后我将距离矩阵给DBSCAN。无论我的eps和min_sample大小有多大或多小,我都不会超过4个集群(eps = 1,min_sample = 13)。对于这种大小的数据,句法结构应该产生更多和/或更大的聚类。

这是我对正在发生的事情的工作理论:

  • A的编辑距离为1到B
  • B的编辑距离为1到C
  • C的编辑距离为2到A
  • 即使A和C的编辑距离为2,但考虑到它们与B的关系,它们会被放在同一个群集中。

如果您认为我遗失了某些内容,或者是否有其他算法可以帮助我完成相同的群集任务,请告诉我。

db = DBSCAN(eps=3, min_samples=10, metric='precomputed')
db.fit(df)
print (set(db.labels_))
{0, -1}

我之所以选择DBSCAN是因为我不知道会发生什么样的集群。

0 个答案:

没有答案