是否有任何能够检测短语的预训练word2vec模型

时间:2019-12-16 23:28:59

标签: word2vec glove

是否存在任何预训练的word2vec模型,其中包含包含单个单词或多个单词的数据(例如“戏剧”,“ drama_film”或“ africanamericancommunity”)合并在一起。是否有使用大型数据集训练过的此类模型,例如针对gloVE训练的数据集?

1 个答案:

答案 0 :(得分:1)

我在Google上进行了快速搜索,但不幸的是我找不到经过预训练的模型。训练自己的模型以检测短语的一种方法是使用二元模型。因此,您可以使用大型Wikipedia转储,例如,预处理使用了bigrams并训练了word2vec模型。 https://github.com/KeepFloyding/wikiNLPpy是一个很好的github项目,可以帮助您实现这一目标 关于该主题的一篇不错的文章:https://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-more-than-one-word-727b6cf723cf

google pre-trained word2vec中所述,谷歌预先训练的模型已经包含一些词组(字母组合)。