是仅用于文本的多标签分类

时间:2017-10-09 12:10:41

标签: python machine-learning multilabel-classification

我正在研究一个数值数据集,显然它是一个多变量输出回归。我想知道您是否可以在数字数据集中使用多标签分类,或者它是严格基于文本的。

对于Eg:Stackoverflow,将每个文本/代码分类为多个标签,如python,flask, python2.7 ......但是这样的事情可以通过数字完成。对不起,我知道这是一个菜鸟问题,但我想知道答案。在此先感谢。

1 个答案:

答案 0 :(得分:1)

当然可以用数字来完成。毕竟,文本本身被转换为要分类的数字。但你不应该使用回归。这显然属于分类。

常规分类器(例如,神经网络)通常具有多个输出,每个类一个。每个输出都返回输入向量属于该特定类的概率。

在标准分类中,您将其分配给具有最大概率的类。在您的情况下,只需将其分配给p > 0.5的所有类(假设输出位于[0, 1]

关于您的问题是多元回归还是多分类问题的问题,您只能通过查看输入来了解这一问题。你根据你想要找到的东西来决定它。如果要在连续范围内查找数值,请选择回归(例如,预测给定产品的价格和销售数量)。如果您有输入有或没有的许多属性,请选择分类。