应用错误收集

时间：2016-12-04 21:23:08

标签： algorithm machine-learning text-analysis

我们有约50-300个字符的评论预先标记了多个主题，如“音乐”，“科技”以及特定的电影，艺术家等。

我们希望训练一种算法来自动标记未来的评论。我们将手动调整建议以提高准确性，并随着时间的推移手动添加更多标签（例如，新艺术家）。帖子将有一个或多个标签。

最简单的方法是什么？我正在寻找一些简单的功能，例如添加content和tag 1, tag 2...，自动训练，然后给它文本以获取建议标签列表（最好带有置信度％）。

我们最终会有数千个标签，可能还有100k +帖子。

我玩了一些东西（天真的贝叶斯，LDA），但我觉得这样一个普通和简单的用例必须有一些简单的东西。也许是图书馆或SaaS，使其变得如此简单。

答案 0 :(得分：0)

考虑support vector machines - 通过stemming进行初步功能提取，stop-words removal，n-gramming（特别是skip-ngramming可能需要付出巨大的代价）

小心：无论分类器多么精彩，一个糟糕的特征提取都会让它立刻变得愚蠢。