Multiclass vs Multilabel

时间:2016-12-24 15:01:09

标签: python analytics multilabel-classification multiclass-classification

目前,我正在开展项目,我必须对餐厅评论数据进行分类。我正在使用多项式朴素贝叶斯算法。我有点困惑,我的问题与多类或多标签有关。

评论示例 -

  

请像顾客一样对待顾客,而不是狗。我永远不会去或建议任何人去Naivedyam,Hauz Khas。他们是生病和完全的商人。食物味道不好,但地方和工作人员太脏了

它包含三个不同的类,如

Bad Experience
Staff Behavior
food quality

如何创建训练数据集?

我应该使用multilabel并创建像

这样的训练数据集
ID Content                    Tags
1, "content of the review#1", Bad Experience,Staff Behavior,food quality

喜欢多类

 Review          Tags
above review, Bad Experience
above review, Staff Behavior
above review, food quality

任何建议

1 个答案:

答案 0 :(得分:0)

您的问题是multilabel classification示例。

一种方法是将每个输出响应视为单独的二进制分类问题

   X           Y1    Y2 
0  1.438161    0     1
1 -0.283780    1     1
2  0.552564    1     0
3  1.931332    0     1
4  1.656010    0     1
5  0.944862    1     0

Y1,Y2是否是“不良经历”或“员工行为”是否发生的单一热门编码。

您可以在scikit-learn documentation中找到一个用于多标签分类的实例。