使用单词向量进行文本分类的增强功能

时间:2016-10-17 16:30:07

标签: machine-learning scikit-learn text-classification gensim word2vec

我正在使用单词向量进行文本分类解决方案。我主要使用单词向量来解决同义词的情况,这些同义词在训练集中不存在但会出现在实际的用例中。通过简单地使用单词向量,我在预测中得不到足够的准确性。任何人都可以建议我可以对单词向量进行一些增强,以提高准确性吗?

1 个答案:

答案 0 :(得分:1)

  • 调试糟糕的预测案例。同义词(训练数据集中的同义词)的高质量嵌入是否有帮助?

  • 使用不同的嵌入体,这些嵌入体训练有更大的词汇量,内容与您的应用程序类似,等等。

  • 获取更多培训数据(标记为数据集)。这应该有很多帮助。文本分类通常具有非常大的特征空间。

  • 允许"训练"训练文本分类器时嵌入层的位置。不要对word2vec训练感到困惑,因为它可以为嵌入层获得预先学习的嵌入,并且可以使用大量未标记的数据。在这里,您使用的是一个相对较小的数据集,仅包含标记数据。允许嵌入层是可训练的"表示渐变可以从输出层反向传播到嵌入层,以微调嵌入向量。