标签: nlp corpus word2vec
我所知道的大多数公开嵌入都是通过新闻文章完成的,这些文章使用与用户/客户评论中使用的语言/单词不同的语言/单词。
虽然这种嵌入可用于有关评论的NLP任务 和用户生成的内容,我认为语言的差异有重要作用,因此我宁愿使用经过用户生成的内容培训的嵌入,例如产品评论。
我正在寻找一个英语评论或评论语料库 - 虽然在德语和荷兰语中也很有用 - 可以生成嵌入,或者已经训练过这种语料库的嵌入。
答案 0 :(得分:1)
找到两个英文数据集/语料库:
https://www.yelp.com/dataset_challenge
https://snap.stanford.edu/data/web-Amazon.html
德语:
http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-webis-cls-10/