应用错误收集

如何预处理文本以匹配Google预先训练的word2vec模型？

时间：2019-09-29 12:16:48

标签： nlp gensim word2vec

我想知道我必须对我的语料库执行哪些步骤来像Google对其庞大的，经过预先训练的word2vec模型（https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/）一样进行样式预处理

根据该网站，他们执行了以下操作：

二字组/三字组
删除一些停用词（仅常见的停用词，例如：a和and of）
删除一些数字（仅不包含周围的字母）

有没有详细说明所有步骤的信息来源？

他们也例如...

删除一些标点符号
小写一些字母
词干或词形？

0 个答案:

没有答案