文本数据中的类别分类

时间:2018-02-15 07:07:32

标签: machine-learning nlp text-classification

这可能是一个抽象的问题,但我总是遇到这类问题的困难,而且它一直在找我。

我抓取数据(例如:关于塔塔钢铁的新闻文章)提取内容,手动阅读每个链接的内容并将其分类为财务,运营,可持续性等。

然后我将tf-idf数据帧作为分类器模型的特征。

我想训练模型来对这些文章进行分类。我只使用tf-idf功能保留了SVM或Logistic。

有没有更好的方法来clssify文本数据?可以有更好的方法,而不是制作tf-idf,因为我们可能会在将它们分解为单词并用作特征时松散信息(句子的语境意义)。

任何可以帮助我改进文本数据分类的算法?

2 个答案:

答案 0 :(得分:1)

有几个商业API以及用于文本分类任务的框架,可以改进tf-idf上的SVM / logistic。它们包括用于分类的句子中的语义/上下文/单词顺序。深度神经网络在此任务中非常有用,如果您想从头开始构建神经网络,您可以研究LSTM和RNN测试分类。对于现有且更容易上手,您可以查看Spacy和FastText。两者都有分类模型的标签和培训数据的例子

答案 1 :(得分:1)

如果你足够清洁你的功能,没有理由简单朴素的贝叶斯表现不佳。专注于删除您已知的任何低信息增益的单词,然后在拟合模型后再次修剪功能。

标记的LDA或L-LDA是另一种选择。