如何考虑Word2Vec和其他预处理的单词对/短语

时间:2018-07-20 17:33:27

标签: python machine-learning nlp word2vec

因此,这是我第一次使用Word2Vec,而Im在训练我的Word2Vec模型之前使用带有WikiCorpus的Wikipedia转储对文件进行预处理。我想使用以下预处理技术:

  1. 将所有字母都转换为小写(我认为WikiCorpus已经做到了)。
  2. 删除所有标点符号(由WikiCorpus完成)。
  3. 将单词对/词组视为一个单词,例如'Big Apple'->'big_apple',而不是'big','apple'。
  4. 将所有数字转换为他们的单词形式,因此'3'->'3'

此刻,我不知道该怎么做最后两个。我知道num2text,但不确定如何与WikiCorpus或Word2vec合并。有人可以帮忙吗?

0 个答案:

没有答案