我想在大数据集上进行多标签文本分类,似乎大型数据机器学习工具(如Apache Mahout或Spark MLLib)目前不支持。我想知道以前有没有人为大数据集做过多标签分类?有没有计划在不久的将来在Mahout或Spark中整合多标签分类?
答案 0 :(得分:0)
此paper解决了您将从多输出预测中获得的收益的性质...
根据您的需要-我建议您尝试将当前问题缩减为一个较小的组,然后在性能不符合您的期望的情况下,在数据集中的定制组周围创建多个模型。
我自己(仍然是您的职位4年……)仍在遇到这个挑战。
以下是我在尝试解决此问题时收集的有用文章的列表:
答案 1 :(得分:0)
我们可以先将标签转化为一个类,然后再进行预测,再转化回原来的标签吗?例如,我有 3 个标签要预测,[y1, y2, y3]
。如果 [y1, y2, y3] = [1, 0, 1]
,那么我给它 label = 101 = 5
。并且在预测过程中,我通过以下方式预测了 y1 的概率:
p(y1=1) = p(100) + p(101) + p(110) + p(111)
。这样一个多标签问题就变成了一个多标签问题