应用错误收集

我正在尝试从300万行的数据库中收集简短的一句话事件描述。每行大约有一个句子。一个重要方面是我的数据包含来自英语句子中其他语言的单词，例如“ Hola，你好吗？”。我正在尝试决定是否应该使用预训练向量或自定义词向量。我知道，根据经验，建议在处理小数据时使用预先训练的向量，因此不确定我的数据是否足够大以使用自定义向量。另一方面，由于我的数据包含许多其他语言的单词，因此我很想使用预先训练的向量，因为外来单词会从使用上下文中获得广泛的赞誉。因此，我的问题是，当处理包含具有逻辑意义但包含混合外来词的句子的数据集时，我应该使用预训练的还是自定义的词向量？

当使用多种语言的单词时，自定义或预训练的Glove单词向量？

0 个答案: