使用字幕对电影进行分级来对电影进行分类-准确性很差

时间:2019-01-19 13:31:19

标签: nlp tokenize text-classification naivebayes svc

我有一个包含130部电影及其字幕的数据集,我必须根据它们的等级(R,NR,PG,PG-13,G)对它们进行分类(使用python语言) 我做了以下事情: 1)使用树库空白和wordpunc标记器标记数据。 2)对数据进行词法化(当包含pos标签时,词法化可提供更高的准确性。) 3)删除停用词和标点符号。 4)对于属于每个类别的电影,执行tfidf向量化,并使用max_features选择前1000个单词,并构建大小为125 * 5000的数据帧。 5)我应用了几种分类和聚类算法,它们给了我以下准确性: SVC:测试准确度:0.325和训练准确度:0.63 朴素贝叶斯:测试acc:0.25和火车精度:0.33 knn:测试精度:0.41 kmeans:测试准确度:0.162 Logistic回归:测试准确度:0.53,训练准确度:0.96

我该怎么做才能提高准确性? 我在重要的事情上犯了错误还是错过了吗?

1 个答案:

答案 0 :(得分:0)

您很幸运拥有可以直观理解的数据。尝试选择一些分类错误的示例,并尝试确定模型失败的原因。

  • 您是否不小心过滤掉了脏话?也许一个n-gram模型会更具预测性
  • 您既有时间安排又有文字吗?对话中的空白可能表示情感或动作场景