如何通过NLKT提取我想要的信息

时间:2016-06-15 09:53:20

标签: python python-3.x dictionary text-analysis bigdata

我想提取有关少数主题的相关信息。例如:

  • 产品信息
  • 客户购买体验
  • 家人或朋友的推荐

在第一步中,我从其中一个网站提取信息。例如:

  

我认为友邦保险提供更好的人寿保险作为我的比较和   公司比较,最重要的还有医疗保险   在我看来,有些代理人会出售你的计划   他们的佣金很高......你担心你从公司购买保险   任何事情发生你可以联系回公司也可以......更好   找到一个可靠的代理商,而不只是为佣金工作   现在,他们可能不会在未来为你服务... thanksregardsdiana   ""

然后在VS2015中使用NLTK,我试图分割单词。

toks = nltk.word_tokenize(text)

通过使用pos_tag,我可以标记我的问题

postoks = nltk.tag.pos_tag(toks)

从这部分我不知道该怎么办? 以前,我使用过IBM text Analytic。在这个软件中,我用来创建字典,然后创建一些模式,然后分析数据。例如 :

  

字典样本:insurance_cmp:{AIA,IMG,SABB}

     

模式样本:

     

insurance_cmp + Good_Feeling_Pattern

     

insurance_cmp + ['购买|购买'] + Bad_Feeling_Pattern

     

Good_Feeling_Pattern = [好,好像,很好]

     

Bad_Feeling_Pattern = [糟糕,更糟,不好,后悔]

我试过知道我可以在NLKT中模拟相同的吗? chunker和create grammar可以帮我提取我想要的东西吗?我可以帮你提高自己的想法吗?

grammar = r"""
    NBAR:
        {<NN.*|JJ>*<NN.*>}  # Nouns and Adjectives, terminated with Nouns

    NP:
        {<NBAR>}
        {<NBAR><IN><NBAR>}  # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)

tree = chunker.parse(postoks)

请帮助我实现目标的下一步是什么?

1 个答案:

答案 0 :(得分:0)

您只需要关注这些video

或阅读此blog