多标签分类,包括作为标签的数字范围

时间:2014-11-04 07:05:53

标签: machine-learning scikit-learn classification corpus multilabel-classification

我有一个分类问题,我的标签是等级,0 - 100,增量为1(例如1,2,3,4)。

我有一个数据集,其中每一行都有一个名称,文本语料库和一个等级(0 - 100)。

从文本语料库我试图提取我可以提供给我的分类器的功能,这将在每行输出相应的评级(0 - 100)。

对于功能选择,我想从基本的单词包开始。然而,我的问题在于分类算法。 sci-kit中是否有分类算法学习支持这类问题?

我正在阅读http://scikit-learn.org/stable/modules/multiclass.html,但所描述的算法似乎支持完全离散的标签,而我有一组连续标签。

编辑:我收看评级的情况怎么样?例如,我可以有10个标签,每个标签1-10个。

2 个答案:

答案 0 :(得分:1)

您可以使用OneHotEncoder对数据进行预处理,将一个1对100的特征转换为100个二进制要素,对应于间隔[1..100]的每个值。然后,您将拥有100个标签并学习多类分类器。

虽然,我建议改用Regression。

答案 1 :(得分:1)

您可以使用多变量回归而不是分类。 U可以从文本语料库中聚类n-gram特征以形成字典并使用它来形成特征集。使用此功能集,可以训练回归模型,其中输出可以是连续值。 U可以对输出实数进行舍入,以获得1-100

中的离散标签