https://nlp.stanford.edu/projects/glove/
我试图使用GloVe来总结音乐评论,但我想知道哪个版本最适合我的项目。将"手套.840B.300d.zip"给我一个更准确的文本摘要,因为它使用了更多的令牌?或者维基百科2014 + Gigaword 5可能比Common Crawl更具代表性?谢谢!
答案 0 :(得分:2)
不幸的是,我认为没有人可以为你提供更好的答案:
"尝试几种选择,看哪哪种效果最好"
我已经看过使用维基百科2014 +千兆字100d载体的作品,这些载体产生了读取理解的SOTA结果。如果没有实验,很难确切地说哪个语料库更接近您的音乐评论集,或者更大尺寸字嵌入的影响是什么。
这只是随机的建议,但我想我建议按此顺序尝试:
来自维基百科+千兆字典的100d 来自维基百科+千兆字典的300d 来自Common Crawl的300d
您可以在原型设计时从较小的尺寸嵌入开始,然后您可以尝试使用更大的嵌入来查看是否获得了性能增强。
本着促进其他小组工作的精神,我肯定会说你应该看看AllenNLP的这些ELMo载体:
他们看起来非常有前途!