提高文本分类的准确性

时间:2018-11-01 00:57:49

标签: python machine-learning neural-network text-classification

我正在尝试为文本分类任务找到模型。我的样本数量约为4500个句子,每个句子大约50个字长。我要对文本进行分类的类别为3,正面,负面和中立。我使用了机器学习(SVM,RF,LR),并且准确性不超过75%(我还完成了预处理部分)。我想与Deep Neural Nets一起工作,也许可以递归,但我不知道从哪里开始。为了达到最大准确性,您有什么建议?我应该期望多少精度? (请问我使用python)

2 个答案:

答案 0 :(得分:0)

4500个句子,每个单词50个字长,对于深度架构而言还远远不够。您可以尝试解决,但我认为它不会起作用。
有了这么多的数据,我建议您为尝试的算法(SVM,RF等)投入更多的精力进行参数调整和单词嵌入。您如何在数字空间中表示数据?使用最新技术进行良好的嵌入仍然可以显示出惊人的效果。
对于有关准确性期望的问题,如果我还没有看到数据,就无法告诉您这些信息。但是,根据我自己的经验,每个句子不太长的3类文本分类问题可以以80%到90%甚至98%的精度来解决。在很大程度上取决于数据的本质

答案 1 :(得分:0)

正面/负面/中性文本/评论分类是一项非常常见的任务,网络上有许多数据集。您可以使用其中一些扩展训练数据集。或尝试使用基于它们的预训练模型。