使用GLOVEs预训练的Gloves.6B.50.txt作为词嵌入的基础R

时间:2018-11-17 05:18:55

标签: r word-embedding text2vec glove

我正在尝试使用r中的GLOVE将文本数据转换为向量。我的计划是平均一个句子的单词向量,但我似乎无法进入单词向量化阶段。我已经从https://nlp.stanford.edu/projects/glove/下载了Gloves.6b.50.txt文件及其父压缩文件,并访问了text2vec的网站,并尝试运行它们的示例,在该示例中加载维基百科数据。但是我不认为这是我想要的(或者我不太了解)。我正在尝试将预训练的嵌入内容加载到模型中,这样,如果我有一个句子(例如“我爱灯”),我可以遍历该句子并将每个单词变成一个向量,然后我可以求平均(将未知单词变成零)和vectorize(word)之类的函数。如何将预训练的嵌入内容作为我的语料库加载到手套模型中(这甚至是我需要完成的工作吗?)

1 个答案:

答案 0 :(得分:0)

我终于明白了。我只需要嵌入矩阵。它已经在其词汇中包含单词作为行名,因此我使用它们来确定每个单词的向量。

现在我需要弄清楚如何更新这些向量!