StackOverflow标签预测器...请建议机器学习方法?

时间:2015-09-01 06:21:23

标签: machine-learning prediction text-classification

我正在尝试预测stackoverflow问题的标签,我无法确定哪种机器学习算法是正确的方法。

输入:作为一个数据集,我已经挖掘了stackoverflow问题,我已经对数据集进行了标记,并从这些数据中删除了停用词和标点符号。

我尝试过的事情:

  1. TF-IDF
  2. 在数据集上训练Naive Bayes,然后提供用户定义的输入来预测标签,但它无法正常工作
  3. 线性SVM
  4. 我应该使用哪种ML算法监督或无监督?如果可能的话,请从头开始建议正确的ML方法。 PS:我有StackOverflow上所有标签的列表所以,无论如何这会有帮助吗?感谢

1 个答案:

答案 0 :(得分:1)

我会尝试MLP。为了开始,我会为输入选择一组相当小的关键字并对它们进行编码[例如1..100]并训练一组相当小的输出标签。

PS:对于此任务的无监督学习通常是不利的,因为许多涉及不同标签的问题具有非常相似的内容并且很可能聚集在一起。