对两个类别中的短语列表进行分类

时间:2017-03-13 13:34:14

标签: python scikit-learn nlp k-means word2vec

我有一个说明房子特征的短语列表。

l = ["cats allowed", "dogs allowed", "pets allowed" , "24 hour doorman", "24 hour concierge", "24/7 concierge", "24hr doorman", ...]

该列表包含约20000个字词。我想创建类似单词的集群。在这里,将形成两个集群。

clstr1 = ["cats allowed", "dogs allowed", "pets allowed"]

clstr2 = ["24 hour doorman", "24 hour concierge", "24/7 concierge", "24hr doorman"]

我不知道群集的总数。直到现在,我只能理解这可以通过k-means clustering algorithm完成。但是,为此,我必须vectorize这些词。我正在考虑使用pre-trained google word2vec模型对单词进行向量化,然后将kmeans中的scikit learn应用于随机数量的群集n_clusters = 2000。我有更好的方法吗?使用nltk或任何其他方法?

0 个答案:

没有答案