使用LingPipe进行分层情感分析

时间:2011-09-21 09:24:10

标签: machine-learning nlp sentiment-analysis

这是在使用LingPipe机器学习工具进行情绪分析的背景下。如果一个段落中的句子具有正面/负面情绪,我必须进行分类。我在LingPipe中了解了以下方法

  1. 如果完整段落基于其极性 - 负面或正面进行分类。

    在这里,我还不知道句子级别的极性。我们仍处于段落级别。如何确定段落句子级别的极性,段落中的句子是否为正/负句子?我知道LingPipe能够对句子是否主观/客观进行分类。所以使用这种方法,,,,

    ,,,,我应该

  2. 首先在一大堆主观/客观的句子上训练LingPipe。

  3. 使用训练过的模型从测试段落中提取所有主观句子。
  4. 根据提取的极性主观句,通过手动将其标记为正/负来训练LingPipe分类器。
  5. 现在使用经过训练的极性模型并提供一个测试主观句(通过传递一个句子通过训练的主观/客观)模型,然后确定该陈述是否为正/负?

    上述方法是否有效?在上面提出的方法中,我们知道LingPipe能够接受用于极性分类的大文本内容(段落)。如果我们只是通过一个主观句来进行极性分类,它会做得好吗?我很困惑!

2 个答案:

答案 0 :(得分:2)

您可能希望了解文献中的多级分析方法,例如

Li,S.,et al。 (2010年)。 “利用文献情感分析的综合多层次模型”,2010年国际模式识别大会。

Yessenalina,A.,et al。 (2010年)。 “文档级情感分类的多层次结构化模型”,2010年自然语言处理经验方法会议论文集,第1046-1056页,麻省理工学院,美国马萨诸塞州,2010年10月9日至11日。

多层次分析方法在信息检索中非常普遍,如向量空间相似性搜索的内容索引。

Ling Pipe这样的环境是开始使用的好方法,但最终你需要使用更低级别,更精细的工具,例如yura建议。

答案 1 :(得分:1)

包括lingpipe在内的大多数机器扫描库都是基于行的(具有平面特征的对象)。因此,如果您想对它进行一些分层分类,您应该对数据进行denormolize。例如,您可以在相同的功能集中具有paragrahp和句子的功能。如果您只使用单词分类,则可以创建PARGRAPH_WORDX = true,SENTENCE_WORDX = true等功能。 其他一些工具包允许你用非规范化来表达你的模型,所谓的图形模型例子是CRF,ACRF,马尔可夫模型等你可以在槌和Factorie中找到的实现。