如何使用word2vec在文本中找到最有意义的单词?

时间:2016-10-23 20:31:45

标签: nlp word2vec

所以,例如,我输入一些带有一些语义含义的句子作为输出,作为输出,我得到一些最接近(余弦距离)单词的列表(主要是单个单词)。

但我想了解我的句子属于哪个群集,并计算每个词与它的距离。并从句子中删除无意义的单词。

例如:

“我想买披萨”;

“披萨”:0.99123

“购买”:0.7834

“想要”:0.1443

如何在没有任何C编码的情况下实现这样的要求?

也许我需要为此计算余弦距离方程?

谢谢!

1 个答案:

答案 0 :(得分:1)

好像你需要主题建模而不是word2vec。 Word2vec用于捕获本地信息,直接使用它来对单词或句子进行分类或聚类不是一个好主意。

另一方面可以是停止删除单词,因为您提到了无意义的单词。顺便说一句,它们并非没有意义,它们实际上与任何主题都不一致。所以,你认为它们没有意义。

我相信你应该使用LDA主题建模方法,因为LDA有很多实现,所以你不需要实现任何东西。