Question

我有一个数据集，该数据集由N个推文组成，并带有5大个性特征（extroverted，stable，agreeable，conscientious和open）。每个类别都用实数表示。

我想预测文档中每个人格特质的得分，但是我不知道该如何处理任务。

一种可能性是将其分为5个不同的回归任务，但是分类器可能会错过5个类之间的相关性（例如，某人extroverted撰写的文档更有可能作者也是{{ 1}}）。

另一种方法是应用多标签方法，但是我认为这是不可能的，因为当有标签而不是实数值（分类而不是回归）时，可以采用这种方法吗？

Answer 1

Scikit学习，请在这里阅读：https://scikit-learn.org/0.22/modules/multiclass.html

“ 多标签分类为每个样本分配一组目标标签。这可以看作是预测数据点的属性，这些属性不是互斥的，例如与文档相关的主题。文字可能同时涉及宗教，政治，金融或教育中的任何一个，或者都不涉及。”

Support multilabel:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neural_network.MLPClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.linear_model.RidgeClassifierCV

或者您可能需要这个：

“ 多输出回归为每个样本分配一组目标值。这可以看作是预测每个数据点的多个属性，例如某个位置的风向和强度。” < / p>

Support multiclass-multioutput:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier

如何处理big5的人格特质任务

1 个答案: