我有一个数据集,该数据集由N个推文组成,并带有5大个性特征(extroverted
,stable
,agreeable
,conscientious
和open
) 。每个类别都用实数表示。
我想预测文档中每个人格特质的得分,但是我不知道该如何处理任务。
一种可能性是将其分为5个不同的回归任务,但是分类器可能会错过5个类之间的相关性(例如,某人extroverted
撰写的文档更有可能作者也是{{ 1}})。
另一种方法是应用多标签方法,但是我认为这是不可能的,因为当有标签而不是实数值(分类而不是回归)时,可以采用这种方法吗?
答案 0 :(得分:2)
Scikit学习,请在这里阅读:https://scikit-learn.org/0.22/modules/multiclass.html
“ 多标签分类为每个样本分配一组目标标签。这可以看作是预测数据点的属性,这些属性不是互斥的,例如与文档相关的主题。文字可能同时涉及宗教,政治,金融或教育中的任何一个,或者都不涉及。”
Support multilabel:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neural_network.MLPClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.linear_model.RidgeClassifierCV
或者您可能需要这个:
“ 多输出回归为每个样本分配一组目标值。这可以看作是预测每个数据点的多个属性,例如某个位置的风向和强度。” < / p>
Support multiclass-multioutput:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier