Python:基于word2vec聚类相似的单词

时间:2017-07-31 20:50:45

标签: python nlp cluster-analysis word2vec topic-modeling

这可能是我要问的天真问题。我有一个标记化的语料库,我已经训练过Gensim的Word2vec模型。代码如下

site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1")
site.download()
site.parse()

def clean(doc):
    stop_free = " ".join([i for i in word_tokenize(doc.lower()) if i not in stop])
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
    snowed = " ".join(snowball.stem(word) for word in normalized.split())
    return snowed   

b = clean(site.text)
model = gensim.models.Word2Vec([b],min_count=1,size=32)
print(model) ### Prints: Word2Vec(vocab=643, size=32, alpha=0.025) ####

为了聚类相似的单词,我使用PCA来可视化相似单词的聚类。但问题在于它正在形成如图中所示的大群集。

PCA&散点图代码:

vocab = list(model.wv.vocab)
X = model[vocab]
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

df = pd.concat([pd.DataFrame(X_pca),
                pd.Series(vocab)],
               axis=1)
df.columns = ['x','y','word']

fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(df['x'],df['y'])
plt.show()

所以,我在这里有三个问题:

1)只有一篇文章足以明确隔离群集吗?

2)如果我有一个训练有大量语料库的模型,我想预测新文章中的相似词,并以群集的形式可视化它们(即我正在预测的文章中的词),有没有办法这样做?

我非常感谢您的建议。谢谢。

1 个答案:

答案 0 :(得分:1)

  1. 不,不是真的。作为参考,在维基百科(英文)上训练的常见word2vec模型包含大约30亿个单词。
  2. 您可以使用KNN(或类似的东西)。 Gensim具有most_similar函数来获得最接近的单词。使用降维(如PCA或tsne),您可以获得一个很好的集群。 (不确定gensim是否有tsne模块,但sklearn有,所以你可以使用它)
  3. 顺便说一下,你指的是一些图像,但它不可用。