我有大量的yelp数据,我必须将评论分为8个不同的类别。
分类
Cleanliness
Customer Service
Parking
Billing
Food Pricing
Food Quality
Waiting time
Unspecified
评论包含多个类别,因此我使用了多重分类。但我很困惑我如何处理积极/消极。实例审查可能对食品质量有利,但对客户服务有负面影响。前 - food taste was very good but staff behaviour was very bad. so review contains positive food quality but negative Customer service
我该如何处理这个案子?我应该在分类前进行情绪分析吗?请帮帮我
答案 0 :(得分:1)
我认为您的数据非常类似于餐厅评论。它包含大约100条评论,每条评论都有不同的方面术语(More information)。因此,您可以使用基于方面的情感分析,如下所示:
1-Aspect term Extraction
从评论中提取方面术语。
双方面极性检测
对于句子中给定的一组方面术语,确定每个方面术语的极性是否为正,负。
3 - 识别方面类别
给定一组预定义的方面类别(例如,食品质量,客户服务),识别给定句子中讨论的方面类别。
4 - 确定极性
给定一组预先确定的方面类别(例如,食品质量,客户服务),确定每个方面类别的极性(正面,负面)。
有关类似项目的详情,请参阅this。
我希望这可以帮到你。
答案 1 :(得分:0)
是的,您需要进行情绪分析。为什么不创建数据的标记,即从句子中找到所需的单词,现在最方便的方法是找到相关的单词及其情绪。即食物很好但清洁度不合适
在这种情况下,你有[食物,良好,清洁,不适合]现在与下一个术语的食物联系和下一个术语“不合适”的清洁度
再次,您可以将其分为两个类,即好的和坏的一个......或者您可以根据您的情况添加类。 然后你会有这样的数据:--------------------
FEATURE | VAL
--------------------
Cleanliness 0
Customer -1
Service -1
Parking -1
Billing -1
Food Pricing -1
Food Quality 1
Waiting time -1
Unspecified -1
我这样做只是作为一个例子,其中-1,1,0分别是无论是好还是坏。您可以添加更多类别为0,1,2不良公平 我回答这个问题可能不太好,但这就是我的感受。
注意:您需要了解您的模型不能完美,因为这就是机器学习的全部内容,您必须犯错。你的模型不能给出一个完美的分类,它必须对某些输入有误,它会随着时间的推移而学习并改进。
答案 2 :(得分:-1)
进行多标签分类的方法有很多种。
最简单的方法是为每个班级设置一个模型,如果评审达到该标签的某个阈值分数,您可以将该标签应用于评审。
这会独立对待这些类,但它似乎是解决问题的好方法。