这可能是一个抽象的问题,但我总是遇到这类问题的困难,而且它一直在找我。
我抓取数据(例如:关于塔塔钢铁的新闻文章)提取内容,手动阅读每个链接的内容并将其分类为财务,运营,可持续性等。
然后我将tf-idf数据帧作为分类器模型的特征。
我想训练模型来对这些文章进行分类。我只使用tf-idf功能保留了SVM或Logistic。
有没有更好的方法来clssify文本数据?可以有更好的方法,而不是制作tf-idf,因为我们可能会在将它们分解为单词并用作特征时松散信息(句子的语境意义)。
任何可以帮助我改进文本数据分类的算法?
答案 0 :(得分:1)
有几个商业API以及用于文本分类任务的框架,可以改进tf-idf上的SVM / logistic。它们包括用于分类的句子中的语义/上下文/单词顺序。深度神经网络在此任务中非常有用,如果您想从头开始构建神经网络,您可以研究LSTM和RNN测试分类。对于现有且更容易上手,您可以查看Spacy和FastText。两者都有分类模型的标签和培训数据的例子
答案 1 :(得分:1)
如果你足够清洁你的功能,没有理由简单朴素的贝叶斯表现不佳。专注于删除您已知的任何低信息增益的单词,然后在拟合模型后再次修剪功能。
标记的LDA或L-LDA是另一种选择。