选择哪种分类?

时间:2017-07-30 04:30:11

标签: machine-learning classification sentiment-analysis multilabel-classification multiclass-classification

我有大量的yelp数据,我必须将评论分为8个不同的类别。
分类

Cleanliness
Customer Service
Parking
Billing
Food Pricing
Food Quality
Waiting time
Unspecified


评论包含多个类别,因此我使用了多重分类。但我很困惑我如何处理积极/消极。实例审查可能对食品质量有利,但对客户服务有负面影响。前 - food taste was very good but staff behaviour was very bad. so review contains positive food quality but negative Customer service我该如何处理这个案子?我应该在分类前进行情绪分析吗?请帮帮我

3 个答案:

答案 0 :(得分:1)

我认为您的数据非常类似于餐厅评论。它包含大约100条评论,每条评论都有不同的方面术语(More information)。因此,您可以使用基于方面的情感分析,如下所示:

1-Aspect term Extraction

从评论中提取方面术语。

双方面极性检测

对于句子中给定的一组方面术语,确定每个方面术语的极性是否为正,负。

3 - 识别方面类别

给定一组预定义的方面类别(例如,食品质量,客户服务),识别给定句子中讨论的方面类别。

4 - 确定极性

给定一组预先确定的方面类别(例如,食品质量,客户服务),确定每个方面类别的极性(正面,负面)。

有关类似项目的详情,请参阅this

我希望这可以帮到你。

答案 1 :(得分:0)

是的,您需要进行情绪分析。为什么不创建数据的标记,即从句子中找到所需的单词,现在最方便的方法是找到相关的单词及其情绪。即食物很好但清洁度不合适

在这种情况下,你有[食物,良好,清洁,不适合]现在与下一个术语的食物联系和下一个术语“不合适”的清洁度

再次,您可以将其分为两个类,即好的和坏的一个......或者您可以根据您的情况添加类。 然后你会有这样的数据:

--------------------
FEATURE     |  VAL
--------------------
Cleanliness    0
Customer      -1
Service       -1
Parking       -1
Billing       -1
Food Pricing  -1
Food Quality   1
Waiting time  -1
Unspecified   -1

我这样做只是作为一个例子,其中-1,1,0分别是无论是好还是坏。您可以添加更多类别为0,1,2不良公平 我回答这个问题可能不太好,但这就是我的感受。

注意:您需要了解您的模型不能完美,因为这就是机器学习的全部内容,您必须犯错。你的模型不能给出一个完美的分类,它必须对某些输入有误,它会随着时间的推移而学习并改进。

答案 2 :(得分:-1)

进行多标签分类的方法有很多种。

最简单的方法是为每个班级设置一个模型,如果评审达到该标签的某个阈值分数,您可以将该标签应用于评审。

这会独立对待这些类,但它似乎是解决问题的好方法。