方位提取的监督学习方法

时间:2016-02-24 12:19:12

标签: machine-learning dataset nlp stanford-nlp sentiment-analysis

我正在为旅游领域的在线旅游评论开发一个方面级别的情绪分析项目。

我有一个带有人工注释的数据集,它有标注的方面术语,方面类别及其情感极性。

例如;

Sentence:

This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

上述句子标有以下方面术语;

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以下方面类别;

{entertainment#positive C} {accommodation#positive C}

我想尝试一种supervised learning方法来训练模型,从句子中对方面术语进行分类。

我正在使用Stanford CORENLP库。但是对培训数据格式应该如何感到困惑?什么是最好的方法。

我看到有人使用IOB notation格式化培训数据来培训NER系统。我可以使用类似的方法来完成这项工作吗?如何,如何格式化我的训练数据文件以从输入句子获得上述方面术语?

如果有人可以指出我正确的方向,我会非常感激。

1 个答案:

答案 0 :(得分:3)

可以通过将其分解为较小的子任务来解决此问题。可能的管道方法可能是:

  1. 第一阶段是方面术语提取,它将识别原始文本中的方面术语。这也可以分解为两个子任务。首先,您的系统需要在文本中标记作为方面术语的标记。让我们称这些标记的令牌方面术语提及。这称为命名实体识别(NER)。接下来,如果您有一组预定义的方面术语类,系统将需要将前一任务中找到的方面术语提及与这些类相关联。这称为实体链接。值得注意的是,从您给出标记数据集的示例来看,还不适合上述任务,因为标签未锚定在文本中。您可以通过猜测给定标签对应的文本中的标记来创建合适的数据集。这类似于远程监督工作。

  2. 下一个任务是方面术语情绪分类。 卷积神经网络已被用于句子和文档情感分类,但如果您在输入中提供了对其进行分类的标记,则它们可能适合您的用途。这在本作品中称为位置嵌入:http://www.cs.nyu.edu/~thien/pubs/vector15.pdf