文本挖掘基本问题

时间:2016-04-06 07:34:31

标签: web-scraping data-mining text-mining sentiment-analysis

Text Mining特定问题:

  1. 我来自汽车行业的CRM领域,我们有很多非结构化的调查数据。第一个问题是 - 是否有一个特定于域的字典可以在这里用来映射积极的&情绪分析的否定词?如果是,请帮助我。

  2. 在进行情绪分析时,我们如何处理“不坏”和“不好”等字眼。不错本质上意味着好,但会得到一个负面的分数..

  3. 我们如何处理重要单词附近的文字。例如。 “没有帮助”和“非常有帮助”应该给予否定&积极的分数,因为这里重要的是“不”&围绕“有帮助”这个词的“非常”。有人称这种方法为“意见挖掘”。如何在r& amp;照顾这种情况。

  4. 任何人的帮助都会非常感激。

1 个答案:

答案 0 :(得分:0)

  1. 可能很少有基于上下文的语料库,其中包含好的和坏的关键词,但这些关键词并非适用于所有数据集。在某些情况下,它可能会变得非常令人失望。对于这类问题,我建议你走机器学习的道路。您可以应用'n'种分类技术,我建议您尝试Naive Bayes,SVM,如果您有时间做基于文本的CNN(有点棘手但非常准确)。以上所有模型将再次严重依赖于您的训练语料库。其中一个例子是here
  2. 2& 3.尝试构建依赖树,斯坦福解析器在句子的语法分析方面做得很好。例如,当我尝试从

    构建依赖关系树时
      

    “我不喜欢自助餐,相反,我会选择非常喜欢的alacarte   经济“

    enter image description here

    从上面的输出我们可以得到,情感词'喜欢'被否定'不'修饰。 “经济”这个词也被一个副词“非常”限定。 有超过50个关系,你只需要担心4或5的情绪分析。这link将有助于解释这些关系是什么。 您可以使用Stanford parser并使用他们的API。