向量化新文本数据

时间:2019-02-15 16:57:43

标签: python vectorization text-mining word-embedding natural-language-processing

我已经在“棕色语料库”上训练了Word2vec模型。

我想将矢量化的单词应用于一个新的文本文档,然后通过Affinity Propagation将其句子聚类。

import gensim
import nltk
from nltk.corpus import brown

sentences = brown.sents()
model = gensim.models.Word2Vec(sentences, min_count=1)
model.save('brown_model')

model = gensim.models.Word2Vec.load('brown_model')

我的文本文档包含一个请求列表,例如:

"I want to go to the store"

"I want the president to help me"

"Clean up my house"

我的问题是:

如何将向量化的Brown corpus应用于我自己的文本数据以用于后续的聚类目的?

1 个答案:

答案 0 :(得分:0)

如果我很了解后续聚类目的的问题,可以通过以下方式解决:

words = set(brown.words())
print (len(words))
...
word_presented = words.intersection(model.vocab.keys())

看看this article