如何处理big5的人格特质任务

时间:2019-12-26 16:00:57

标签: python regression classification multilabel-classification

我有一个数据集,该数据集由N个推文组成,并带有5大个性特征(extrovertedstableagreeableconscientiousopen) 。每个类别都用实数表示。

我想预测文档中每个人格特质的得分,但是我不知道该如何处理任务。

一种可能性是将其分为5个不同的回归任务,但是分类器可能会错过5个类之间的相关性(例如,某人extroverted撰写的文档更有可能作者也是{{ 1}})。

另一种方法是应用多标签方法,但是我认为这是不可能的,因为当有标签而不是实数值(分类而不是回归)时,可以采用这种方法吗?

1 个答案:

答案 0 :(得分:2)

Scikit学习,请在这里阅读:https://scikit-learn.org/0.22/modules/multiclass.html

多标签分类为每个样本分配一组目标标签。这可以看作是预测数据点的属性,这些属性不是互斥的,例如与文档相关的主题。文字可能同时涉及宗教,政治,金融或教育中的任何一个,或者都不涉及。”

Support multilabel:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neural_network.MLPClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.linear_model.RidgeClassifierCV

或者您可能需要这个:

多输出回归为每个样本分配一组目标值。这可以看作是预测每个数据点的多个属性,例如某个位置的风向和强度。” < / p>

Support multiclass-multioutput:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier