确定DBSCAN Algo用于推文聚类的参数

时间:2016-04-16 21:25:28

标签: cluster-analysis dbscan

我正在尝试对推文进行聚类以检测突发新闻。我使用DBSCAN作为聚类技术。我无法达到epsilon和min_sample_points的良好值。为了聚集推文,我正在批量发布2000条推文并在其上应用聚类算法。对于teauture提取,我使用scikit.learn包中的tf-idf矢量化器。使用max_df = 0.6和min_df = 5以及bi-gram作为矢量化器的参数。结果很大程度上将大多数推文显示为异常值或许多随机推文到单个群集中。我使用的值的示例 - eps = 0.2和min_samples = 8.此外,我避免使用K均值算法,因为对于此问题无法预测聚类(k)的数量,并且聚类的形状可能不一定是球形的。 / p>

1 个答案:

答案 0 :(得分:1)

对于突发新闻,有比集群更好的方法。

文本数据,特别是Twitter非常嘈杂。许多推文都完全是胡说八道。但主要问题是它们太短。如果您只有几个单词,则测量距离的数据太少。 "汽车撞墙。"和#34;华尔街上的一辆汽车"有非常相似的词(基于TF-IDF),但它们的含义却截然不同。

所以我并不感到惊讶,这种方法效果不佳。它实际上并不是"失败的集群"但你的距离功能。