Python:NLTK或其他包中的Brown聚类?

时间:2014-05-09 12:47:41

标签: python package cluster-analysis nltk

简单问题:布朗聚类技术(不是经过训练的模型)是NLTK的一部分还是可以在Windows上轻松安装的其他软件包?

Wikipedia: Brown Clustering

2 个答案:

答案 0 :(得分:2)

你看过这个Q& A What does the Brown clustering algorithm output mean? @alvas给出了python实现的链接

我希望我能给出一个更明确的答案,但它看起来不是NLTK的一部分。我看到的唯一聚类算法是:http://www.nltk.org/api/nltk.cluster.html

布朗聚类是一种层次聚类,如您的维基链接所示,因此一般的层次聚类可以帮助您进行scikit:http://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering

答案 1 :(得分:0)

我发现使用Brown Clustetr(不是模型而是语料库)最可行的方法是由CMU Tweet NLP制作的 http://www.ark.cs.cmu.edu/TweetNLP/

他们基于Percy Liang的Brown集群实现Lui和Baldwin的langid.py识别的英文推文构建了Twitter Word Clusters。 通过一些简单的map-reduce工作,您可以轻松地将棕色群集实现到您的文本中。