简单问题:布朗聚类技术(不是经过训练的模型)是NLTK的一部分还是可以在Windows上轻松安装的其他软件包?
答案 0 :(得分:2)
你看过这个Q& A What does the Brown clustering algorithm output mean? @alvas给出了python实现的链接
我希望我能给出一个更明确的答案,但它看起来不是NLTK的一部分。我看到的唯一聚类算法是:http://www.nltk.org/api/nltk.cluster.html
布朗聚类是一种层次聚类,如您的维基链接所示,因此一般的层次聚类可以帮助您进行scikit:http://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering
答案 1 :(得分:0)
我发现使用Brown Clustetr(不是模型而是语料库)最可行的方法是由CMU Tweet NLP制作的 http://www.ark.cs.cmu.edu/TweetNLP/
他们基于Percy Liang的Brown集群实现Lui和Baldwin的langid.py识别的英文推文构建了Twitter Word Clusters。 通过一些简单的map-reduce工作,您可以轻松地将棕色群集实现到您的文本中。