不同的GloVe型号有什么区别?

时间:2018-02-18 00:17:44

标签: nlp deep-learning stanford-nlp

https://nlp.stanford.edu/projects/glove/

我试图使用GloVe来总结音乐评论,但我想知道哪个版本最适合我的项目。将"手套.840B.300d.zip"给我一个更准确的文本摘要,因为它使用了更多的令牌?或者维基百科2014 + Gigaword 5可能比Common Crawl更具代表性?谢谢!

1 个答案:

答案 0 :(得分:2)

不幸的是,我认为没有人可以为你提供更好的答案:

"尝试几种选择,看哪哪种效果最好"

我已经看过使用维基百科2014 +千兆字100d载体的作品,这些载体产生了读取理解的SOTA结果。如果没有实验,很难确切地说哪个语料库更接近您的音乐评论集,或者更大尺寸字嵌入的影响是什么。

这只是随机的建议,但我想我建议按此顺序尝试:

来自维基百科+千兆字典的100d 来自维基百科+千兆字典的300d 来自Common Crawl的300d

您可以在原型设计时从较小的尺寸嵌入开始,然后您可以尝试使用更大的嵌入来查看是否获得了性能增强。

本着促进其他小组工作的精神,我肯定会说你应该看看AllenNLP的这些ELMo载体:

http://allennlp.org/elmo

他们看起来非常有前途!