我正在尝试从300万行的数据库中收集简短的一句话事件描述。每行大约有一个句子。一个重要方面是我的数据包含来自英语句子中其他语言的单词,例如“ Hola,你好吗?”。我正在尝试决定是否应该使用预训练向量或自定义词向量。我知道,根据经验,建议在处理小数据时使用预先训练的向量,因此不确定我的数据是否足够大以使用自定义向量。另一方面,由于我的数据包含许多其他语言的单词,因此我很想使用预先训练的向量,因为外来单词会从使用上下文中获得广泛的赞誉。 因此,我的问题是,当处理包含具有逻辑意义但包含混合外来词的句子的数据集时,我应该使用预训练的还是自定义的词向量?