我想提取有关少数主题的相关信息。例如:
在第一步中,我从其中一个网站提取信息。例如:
我认为友邦保险提供更好的人寿保险作为我的比较和 公司比较,最重要的还有医疗保险 在我看来,有些代理人会出售你的计划 他们的佣金很高......你担心你从公司购买保险 任何事情发生你可以联系回公司也可以......更好 找到一个可靠的代理商,而不只是为佣金工作 现在,他们可能不会在未来为你服务... thanksregardsdiana ""
然后在VS2015中使用NLTK,我试图分割单词。
toks = nltk.word_tokenize(text)
通过使用pos_tag,我可以标记我的问题
postoks = nltk.tag.pos_tag(toks)
从这部分我不知道该怎么办? 以前,我使用过IBM text Analytic。在这个软件中,我用来创建字典,然后创建一些模式,然后分析数据。例如 :
字典样本:insurance_cmp:{AIA,IMG,SABB}
模式样本:
insurance_cmp + Good_Feeling_Pattern
insurance_cmp + ['购买|购买'] + Bad_Feeling_Pattern
Good_Feeling_Pattern = [好,好像,很好]
Bad_Feeling_Pattern = [糟糕,更糟,不好,后悔]
我试过知道我可以在NLKT中模拟相同的吗? chunker和create grammar可以帮我提取我想要的东西吗?我可以帮你提高自己的想法吗?
grammar = r"""
NBAR:
{<NN.*|JJ>*<NN.*>} # Nouns and Adjectives, terminated with Nouns
NP:
{<NBAR>}
{<NBAR><IN><NBAR>} # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)
tree = chunker.parse(postoks)
请帮助我实现目标的下一步是什么?