我有一个包含130部电影及其字幕的数据集,我必须根据它们的等级(R,NR,PG,PG-13,G)对它们进行分类(使用python语言) 我做了以下事情: 1)使用树库空白和wordpunc标记器标记数据。 2)对数据进行词法化(当包含pos标签时,词法化可提供更高的准确性。) 3)删除停用词和标点符号。 4)对于属于每个类别的电影,执行tfidf向量化,并使用max_features选择前1000个单词,并构建大小为125 * 5000的数据帧。 5)我应用了几种分类和聚类算法,它们给了我以下准确性: SVC:测试准确度:0.325和训练准确度:0.63 朴素贝叶斯:测试acc:0.25和火车精度:0.33 knn:测试精度:0.41 kmeans:测试准确度:0.162 Logistic回归:测试准确度:0.53,训练准确度:0.96
我该怎么做才能提高准确性? 我在重要的事情上犯了错误还是错过了吗?
答案 0 :(得分:0)
您很幸运拥有可以直观理解的数据。尝试选择一些分类错误的示例,并尝试确定模型失败的原因。