我正在研究文本分类用例。文本基本上是法律文件的内容,例如公司年度报告,W9等。因此共有10个不同类别,总共500个文件。因此,每个类别50个文档。因此,数据集由500行和2列组成,第一列由文本组成,第二列为目标。
我已经使用TF-IDF建立了一个基本模型来实现文字功能。我使用过多项朴素贝叶斯,SVC,线性SGD,多层感知器,随机森林。这些模型为我提供了大约70-75%的F1分数。
我想看看创建单词嵌入是否可以帮助我提高准确性。我使用gensim Word2vec训练了单词向量,并通过与上述相同的ML模型拟合了单词向量,但是我得到了大约30-35%的分数。我有一个非常小的数据集和很多类别,这是问题吗?是唯一原因,还是我错过了某些东西?