应用错误收集

如何在Apache Spark中进行多标签分类

时间：2015-06-25 19:58:50

标签： apache-spark mahout

我想在大数据集上进行多标签文本分类，似乎大型数据机器学习工具（如Apache Mahout或Spark MLLib）目前不支持。我想知道以前有没有人为大数据集做过多标签分类？有没有计划在不久的将来在Mahout或Spark中整合多标签分类？

2 个答案:

答案 0 :(得分：0)

此paper解决了您将从多输出预测中获得的收益的性质...

进行预测时能够考虑多个独立输入参数的能力，而不必为要在给定预测中尝试进行的每个第n个指数预测不断更新指标。
计算速度提高。

根据您的需要-我建议您尝试将当前问题缩减为一个较小的组，然后在性能不符合您的期望的情况下，在数据集中的定制组周围创建多个模型。

我自己（仍然是您的职位4年……）仍在遇到这个挑战。

以下是我在尝试解决此问题时收集的有用文章的列表：

答案 1 :(得分：0)

我们可以先将标签转化为一个类，然后再进行预测，再转化回原来的标签吗？例如，我有 3 个标签要预测，[y1, y2, y3]。如果 [y1, y2, y3] = [1, 0, 1]，那么我给它 label = 101 = 5。并且在预测过程中，我通过以下方式预测了 y1 的概率： p(y1=1) = p(100) + p(101) + p(110) + p(111)。这样一个多标签问题就变成了一个多标签问题