单词嵌入在文本分类方面表现不佳

时间:2018-11-05 19:16:20

标签: nlp word2vec text-classification word-embedding

我正在研究文本分类用例。文本基本上是法律文件的内容,例如公司年度报告,W9等。因此共有10个不同类别,总共500个文件。因此,每个类别50个文档。因此,数据集由500行和2列组成,第一列由文本组成,第二列为目标。

我已经使用TF-IDF建立了一个基本模型来实现文字功能。我使用过多项朴素贝叶斯,SVC,线性SGD,多层感知器,随机森林。这些模型为我提供了大约70-75%的F1分数。

我想看看创建单词嵌入是否可以帮助我提高准确性。我使用gensim Word2vec训练了单词向量,并通过与上述相同的ML模型拟合了单词向量,但是我得到了大约30-35%的分数。我有一个非常小的数据集和很多类别,这是问题吗?是唯一原因,还是我错过了某些东西?

0 个答案:

没有答案