什么是提高文本分类的模型精度/召回率的典型方法

时间:2014-04-17 13:58:47

标签: algorithm data-mining text-mining

我正在开发一个数据挖掘项目,试图将文本自动分类为t类。 它是一个多级监督学习,输入功能包括标题和正文(都是文本)。 目前的准确率不高,请您指点一些提高准确度的方法?

这是我已经尝试过的东西。

  1. 预处理:期限(请你提出一个提取方法 自动条款)
  2. 删除停用词(你能否建议一些停止 为英语设置的单词)
  3. 词干
  4. Lemmatization
  5. N-gram
  6. 特征选择(信息增益比)
  7. 算法:GBDT,LR,SVM等。

1 个答案:

答案 0 :(得分:0)

您可以使用大量工具来提取合理的语言接地功能类型。这取决于您最喜欢的编程语言/环境,以及是否要使用其中包含一些文本挖掘组件的机器学习套件,或仅使用文本挖掘组件。

看看:

关于禁用词汇表: