如何使用stanford-nlp或OpenNLP通过java从给定文本中提取/识别单词或文本

时间:2017-09-21 09:26:20

标签: java nlp stanford-nlp opennlp

我即将从社交媒体,新闻网站,博客中发布的RAW测试中提取一些信息,这些信息与政治,WAR,药物等特定领域相关。所以我已经开始使用一些开源库例如stanford-nlp,apache OpenNLP以及名为lexalytics的商业许可工具。

根据我的项目,我们正在分析公开发布的文本并生成一些结果,并根据一些参数进行挖掘,以确定这些帖子与哪个类别相关。

但我需要使用stanford-nlp库从给定文本中提取主题。主题是指与教育,政治相关的文本或句子。我已经能够提取像文本/句子这样的实体包含LOCATION,DATE,PERSON,MONEY这样的方式。

与lexalytics同样的主题提取也是许可证工具。

你的帮助表示赞赏。

感谢。

1 个答案:

答案 0 :(得分:0)

从文本文档中提取主题可以使用生成建模来完成,其中分布的单词假定为先验基于已部署LDA等算法的主题

Open Calais API http://www.opencalais.com/opencalais-api/为您提供单个/多个主题以及文档所基于的相关置信度值。