应用错误收集

时间：2016-10-17 16:30:07

标签： machine-learning scikit-learn text-classification gensim word2vec

我正在使用单词向量进行文本分类解决方案。我主要使用单词向量来解决同义词的情况，这些同义词在训练集中不存在但会出现在实际的用例中。通过简单地使用单词向量，我在预测中得不到足够的准确性。任何人都可以建议我可以对单词向量进行一些增强，以提高准确性吗？

答案 0 :(得分：1)

调试糟糕的预测案例。同义词（训练数据集中的同义词）的高质量嵌入是否有帮助？
使用不同的嵌入体，这些嵌入体训练有更大的词汇量，内容与您的应用程序类似，等等。
获取更多培训数据（标记为数据集）。这应该有很多帮助。文本分类通常具有非常大的特征空间。
允许＆＃34;训练＆＃34;训练文本分类器时嵌入层的位置。不要对word2vec训练感到困惑，因为它可以为嵌入层获得预先学习的嵌入，并且可以使用大量未标记的数据。在这里，您使用的是一个相对较小的数据集，仅包含标记数据。允许嵌入层是可训练的＆＃34;表示渐变可以从输出层反向传播到嵌入层，以微调嵌入向量。