应用错误收集

我有一个包含130部电影及其字幕的数据集，我必须根据它们的等级（R，NR，PG，PG-13，G）对它们进行分类（使用python语言）我做了以下事情： 1）使用树库空白和wordpunc标记器标记数据。 2）对数据进行词法化（当包含pos标签时，词法化可提供更高的准确性。） 3）删除停用词和标点符号。 4）对于属于每个类别的电影，执行tfidf向量化，并使用max_features选择前1000个单词，并构建大小为125 * 5000的数据帧。 5）我应用了几种分类和聚类算法，它们给了我以下准确性： SVC：测试准确度：0.325和训练准确度：0.63 朴素贝叶斯：测试acc：0.25和火车精度：0.33 knn：测试精度：0.41 kmeans：测试准确度：0.162 Logistic回归：测试准确度：0.53，训练准确度：0.96

我该怎么做才能提高准确性？我在重要的事情上犯了错误还是错过了吗？

使用字幕对电影进行分级来对电影进行分类-准确性很差

1 个答案: