我必须构建一个ML模型,以将句子分为不同的类别。我有一个具有2列(句子和标签)和350行的数据集,即形状为(350,2)。为了将句子转换为数字表示形式,我使用了TfIdf向量化技术,因此转换后的数据集现在具有452列(使用TfIdf获得了451列,其中1为标签),即形状为(350,452)。一般而言,我拥有的数据集比训练样本具有更多的功能。在这种情况下,最佳的分类算法是什么? Logistic回归,SVM(还是哪种内核?),神经网络(还是哪种体系结构?),朴素的贝叶斯算法还是其他算法?
如果将来我得到更多的训练样本(但列数没有增加太多),例如形状为(10000,750),该怎么办?
编辑:这些句子实际上是银行对帐单的旁白。我大约有10到15个标签,所有这些标签都是我手动标记的。例如。税收,银行手续费,贷款等。将来,我确实计划获得更多对帐单,并且我还将给它们加上标签。我相信我最终最多只能拥有约20个标签。
答案 0 :(得分:0)
通过这么小的培训,我认为您只有获得一些经过预先培训的语言模型(例如GPT-2)并根据您的问题进行微调,才能获得任何合理的结果。即使对于更大的数据集,这仍然可能是正确的,即使您从头开始训练自己的神经网络,神经网络也可能仍然是最好的。顺便说一句,你有几个标签?这些是什么样的标签?