我想使用GloVe为文档构建单词嵌入。我知道如何获得单个单词(unigrams)的矢量嵌入,如下所示(对于他们的示例文本文档)。
$ git clone http://github.com/stanfordnlp/glove
$ cd glove && make
$ ./demo.sh
现在,我想获得bigrams的矢量嵌入。例如;
可以在GloVe中进行吗?如果是,怎么样?
答案 0 :(得分:0)
我不认为他们有可用的二元组向量,但你可以通过预处理语料库自己生成它们。例如,如果您的语料库中的文档如下所示:
GloVe is love
你可以这样格式化:
START_GloVe GloVe_is is_love love_END
像往常一样在这个语料库中训练一组嵌入物。你也可以看看Word2vec,就像this post中的类似。