我们有约50-300个字符的评论预先标记了多个主题,如“音乐”,“科技”以及特定的电影,艺术家等。
我们希望训练一种算法来自动标记未来的评论。我们将手动调整建议以提高准确性,并随着时间的推移手动添加更多标签(例如,新艺术家)。帖子将有一个或多个标签。
最简单的方法是什么?我正在寻找一些简单的功能,例如添加content
和tag 1, tag 2...
,自动训练,然后给它文本以获取建议标签列表(最好带有置信度%)。
我们最终会有数千个标签,可能还有100k +帖子。
我玩了一些东西(天真的贝叶斯,LDA),但我觉得这样一个普通和简单的用例必须有一些简单的东西。也许是图书馆或SaaS,使其变得如此简单。
答案 0 :(得分:0)
考虑support vector machines - 通过stemming进行初步功能提取,stop-words removal,n-gramming(特别是skip-ngramming可能需要付出巨大的代价)
小心:无论分类器多么精彩,一个糟糕的特征提取都会让它立刻变得愚蠢。