最简单的方法/黑盒基于现有(标记的)数据集建议短帖的标签?

时间:2016-12-04 21:23:08

标签: algorithm machine-learning text-analysis

我们有约50-300个字符的评论预先标记了多个主题,如“音乐”,“科技”以及特定的电影,艺术家等。

我们希望训练一种算法来自动标记未来的评论。我们将手动调整建议以提高准确性,并随着时间的推移手动添加更多标签(例如,新艺术家)。帖子将有一个或多个标签。

最简单的方法是什么?我正在寻找一些简单的功能,例如添加contenttag 1, tag 2...,自动训练,然后给它文本以获取建议标签列表(最好带有置信度%)。

我们最终会有数千个标签,可能还有100k +帖子。

我玩了一些东西(天真的贝叶斯,LDA),但我觉得这样一个普通和简单的用例必须有一些简单的东西。也许是图书馆或SaaS,使其变得如此简单。

1 个答案:

答案 0 :(得分:0)

考虑support vector machines - 通过stemming进行初步功能提取,stop-words removaln-gramming(特别是skip-ngramming可能需要付出巨大的代价)

小心:无论分类器多么精彩,一个糟糕的特征提取都会让它立刻变得愚蠢。

Porter stemmer

snowball stemming