使用没有神经网络的预训练单词向量进行文本分类

时间:2019-01-29 20:55:27

标签: python text classification embedding

背景:我已经在我的数据集评估多种文本分类方法,包括使用从字计数和TF-IDF得出的特征向量,然后通过各种分类器运行这些。我的数据集非常小(大约2300个句子和大约5个类),并且考虑到上述方法将不同的方法视为完全独立,因此想使用词向量方法进行分类。我已经使用了浅神经网络的预训练词向量,但收效甚微。

问题:我在寻找使用字向量我的句子分类和想到的取字向量的句子,将它们组合成一个单一的载体中,然后取每个类别句矢量的矩心的另一种方法 - 然后通过新句子和形心之间的距离度量进行分类。

如何单词矢量合并成一个“句向量”给我的小数据集?

3 个答案:

答案 0 :(得分:1)

word2vecs的一个重要功能是您可以对它们执行简单的操作。从单词到句子的一种常见方法是简单地对句子中所有单词的单词向量取平均值。

由于示例数据很小,因此我将使用Gensim Data中的相关嵌入,使用您自己的示例进行重新训练,最后使用更简单的分类器(例如逻辑回归)。

如果要对文档进行分类,Nathan认为Doc2Vec是Word2Vec的重要扩展,它减少了很多步骤。通过几次迭代,您实际上可以达到非常好的结果。 Here是Doc2Vec的出色实现。

答案 1 :(得分:0)

基本上,您需要先了解句子的拆分位置,然后才能为这些句子使用doc2vec模型。

https://radimrehurek.com/gensim/models/doc2vec.html

  1. 确定句子边界在哪里
  2. 句子拆分模型
  3. 训练句子中的Doc2Vec模型
  4. 将句子向量输入到NN模型

我这样做的成功有限。您的语料库很小,但是您可以随时尝试一下,然后进行测试/验证/评估!

祝你好运

答案 2 :(得分:0)

为此,我将使用gensim的段落矢量Doc2Vec的实现。我刚刚写了an article,描述了如何使用它对电影评论进行分类,这可能会对您有所帮助!