目前,我正在开展项目,我必须对餐厅评论数据进行分类。我正在使用多项式朴素贝叶斯算法。我有点困惑,我的问题与多类或多标签有关。
评论示例 -
请像顾客一样对待顾客,而不是狗。我永远不会去或建议任何人去Naivedyam,Hauz Khas。他们是生病和完全的商人。食物味道不好,但地方和工作人员太脏了
它包含三个不同的类,如
Bad Experience
Staff Behavior
food quality
如何创建训练数据集?
我应该使用multilabel并创建像
这样的训练数据集ID Content Tags
1, "content of the review#1", Bad Experience,Staff Behavior,food quality
或
喜欢多类
Review Tags
above review, Bad Experience
above review, Staff Behavior
above review, food quality
任何建议
答案 0 :(得分:0)
您的问题是multilabel classification示例。
一种方法是将每个输出响应视为单独的二进制分类问题
X Y1 Y2
0 1.438161 0 1
1 -0.283780 1 1
2 0.552564 1 0
3 1.931332 0 1
4 1.656010 0 1
5 0.944862 1 0
Y1,Y2是否是“不良经历”或“员工行为”是否发生的单一热门编码。
您可以在scikit-learn documentation中找到一个用于多标签分类的实例。