如何预处理文本以匹配Google预先训练的word2vec模型?

时间:2019-09-29 12:16:48

标签: nlp gensim word2vec

我想知道我必须对我的语料库执行哪些步骤来像Google对其庞大的,经过预先训练的word2vec模型(https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/)一样进行样式预处理

根据该网站,他们执行了以下操作:

  • 二字组/三字组
  • 删除一些停用词(仅常见的停用词,例如:a和and of)
  • 删除一些数字(仅不包含周围的字母)

有没有详细说明所有步骤的信息来源?

他们也例如...

  • 删除一些标点符号
  • 小写一些字母
  • 词干或词形 ?

0 个答案:

没有答案