应用错误收集

文本数据中的类别分类

时间：2018-02-15 07:07:32

标签： machine-learning nlp text-classification

这可能是一个抽象的问题，但我总是遇到这类问题的困难，而且它一直在找我。

我抓取数据（例如：关于塔塔钢铁的新闻文章）提取内容，手动阅读每个链接的内容并将其分类为财务，运营，可持续性等。

然后我将tf-idf数据帧作为分类器模型的特征。

我想训练模型来对这些文章进行分类。我只使用tf-idf功能保留了SVM或Logistic。

有没有更好的方法来clssify文本数据？可以有更好的方法，而不是制作tf-idf，因为我们可能会在将它们分解为单词并用作特征时松散信息（句子的语境意义）。

任何可以帮助我改进文本数据分类的算法？

2 个答案:

答案 0 :(得分：1)

有几个商业API以及用于文本分类任务的框架，可以改进tf-idf上的SVM / logistic。它们包括用于分类的句子中的语义/上下文/单词顺序。深度神经网络在此任务中非常有用，如果您想从头开始构建神经网络，您可以研究LSTM和RNN测试分类。对于现有且更容易上手，您可以查看Spacy和FastText。两者都有分类模型的标签和培训数据的例子

答案 1 :(得分：1)

如果你足够清洁你的功能，没有理由简单朴素的贝叶斯表现不佳。专注于删除您已知的任何低信息增益的单词，然后在拟合模型后再次修剪功能。

标记的LDA或L-LDA是另一种选择。