我正在尝试复制(https://arxiv.org/abs/1704.05513)以对Facebook数据进行Big 5作者分类(发布帖子和Big 5个人资料)。
删除停用词后,我将每个单词嵌入到文件中,并使用预先训练的GloVe单词向量。然而,计算每个用户的平均或坐标最小/最大字矢量并将其用作高斯过程/ SVM的输入给我带来可怕的结果。现在我想知道论文的含义是什么:
我们的方法结合了Word嵌入和高斯 流程。我们从用户的推文中提取单词 将他们的Word嵌入表示平均化为单个 向量。然后高斯过程模型采用这些 向量作为训练和测试的输入。
我还可以“平均”矢量以获得不错的结果,还能使用某些特定的高斯过程吗?