当使用多种语言的单词时,自定义或预训练的Glove单词向量?

时间:2018-10-04 09:34:54

标签: vector nlp word spacy glove

我正在尝试从300万行的数据库中收集简短的一句话事件描述。每行大约有一个句子。一个重要方面是我的数据包含来自英语句子中其他语言的单词,例如“ Hola,你好吗?”。我正在尝试决定是否应该使用预训练向量或自定义词向量。我知道,根据经验,建议在处理小数据时使用预先训练的向量,因此不确定我的数据是否足够大以使用自定义向量。另一方面,由于我的数据包含许多其他语言的单词,因此我很想使用预先训练的向量,因为外来单词会从使用上下文中获得广泛的赞誉。 因此,我的问题是,当处理包含具有逻辑意义但包含混合外来词的句子的数据集时,我应该使用预训练的还是自定义的词向量?

0 个答案:

没有答案