用于作者分类/回归(GP)的预训练单词向量的文档表示

时间:2018-02-24 17:03:19

标签: machine-learning nlp word2vec text-classification word-embedding

我正在尝试复制(https://arxiv.org/abs/1704.05513)以对Facebook数据进行Big 5作者分类(发布帖子和Big 5个人资料)。

删除停用词后,我将每个单词嵌入到文件中,并使用预先训练的GloVe单词向量。然而,计算每个用户的平均或坐标最小/最大字矢量并将其用作高斯过程/ SVM的输入给我带来可怕的结果。现在我想知道论文的含义是什么:

  

我们的方法结合了Word嵌入和高斯   流程。我们从用户的推文中提取单词   将他们的Word嵌入表示平均化为单个   向量。然后高斯过程模型采用这些   向量作为训练和测试的输入。

我还可以“平均”矢量以获得不错的结果,还能使用某些特定的高斯过程吗?

0 个答案:

没有答案