NLP Aspect挖掘方法

时间:2017-08-06 18:19:55

标签: nlp stanford-nlp sentiment-analysis

我试图根据亚马逊的消费者评论为耐用洗衣机,冰箱实施方面采矿者。这个想法是为方面而不是整个句子输出情绪极性。例如:'食物很好但服务很差'审查必须输出食物为正面,服务为负面。我阅读了Richard Socher关于RNTN模型的细粒度情感分类器的论文,但我想我需要手动标记不同域的短语情绪并创建我自己的树库以获得更好的准确性。

这是我想到的另一种方法。有人可以通过您的反馈验证/指导我 将方法分解为2个子任务。 1)识别方面2)识别情绪

识别方面

  1. 使用POS标记器识别所有名词。这应该入围 可能是评论中的所有方面。
  2. 使用这些名词的word2vec来确定类似名词并减少数据集大小
  3. 识别情绪

    1. 在评级为1,2,4,5的评论中训练CNN或密网模型(忽略 3因为我们需要有极性的数据)
    2. 将测试集评论细分为短语(例如'食物很好')然后使用上述模型对其进行评分
    3. 找到第一个子任务中标识的方面并将其标记为 他们各自的短语。

1 个答案:

答案 0 :(得分:0)

我不知道如何回答这个问题,但有一些建议:

  1. 看一下神经网络文献中的多任务学习,并尝试使用end2end神经网络完成多项任务。
  2. 使用预训练的单词向量,如w2v或glov作为输入。
  3. 使用互联网数据时,不要依赖pos标记符
  4. 找到一种方法来代表您的名称实体和oov在您的设计中。
  5. 不要忽视3 !!
  6. 您应该定期注释一些数据。