如何在Apache Spark中进行多标签分类

时间:2015-06-25 19:58:50

标签: apache-spark mahout

我想在大数据集上进行多标签文本分类,似乎大型数据机器学习工具(如Apache Mahout或Spark MLLib)目前不支持。我想知道以前有没有人为大数据集做过多标签分类?有没有计划在不久的将来在Mahout或Spark中整合多标签分类?

2 个答案:

答案 0 :(得分:0)

paper解决了您将从多输出预测中获得的收益的性质...

  1. 进行预测时能够考虑多个独立输入参数的能力,而不必为要在给定预测中尝试进行的每个第n个指数预测不断更新指标。
  2. 计算速度提高。

根据您的需要-我建议您尝试将当前问题缩减为一个较小的组,然后在性能不符合您的期望的情况下,在数据集中的定制组周围创建多个模型。

我自己(仍然是您的职位4年……)仍在遇到这个挑战。

以下是我在尝试解决此问题时收集的有用文章的列表:

答案 1 :(得分:0)

我们可以先将标签转化为一个类,然后再进行预测,再转化回原来的标签吗?例如,我有 3 个标签要预测,[y1, y2, y3]。如果 [y1, y2, y3] = [1, 0, 1],那么我给它 label = 101 = 5。并且在预测过程中,我通过以下方式预测了 y1 的概率: p(y1=1) = p(100) + p(101) + p(110) + p(111)。这样一个多标签问题就变成了一个多标签问题