用于关键字提取的OpenNLP NLP TOOL

时间:2014-05-22 14:09:09

标签: keyword opennlp

我想要使用pdf API来提取一组文档(docxtxtopennlp)中的关键字/代码,以便进行标记。

有人可以建议我如何使用opennlp工具进行关键字提取清除?

1 个答案:

答案 0 :(得分:1)

欢迎来到SO!如果你想到一个"关键字"作为一个相对术语,OpenNLP可以在很多方面为您提供帮助。例如,您可以使用词性标注器来提取名词,并仅将名词索引为关键词(您可以对动词执行相同操作)。您可以使用SentenceChunker,提取名词短语或动词短语并为短语编制索引。您可以使用Namefinder执行命名实体识别并按类型索引实体(然后您的搜索引擎可以专门搜索人员的名称或组织名称。这可能很强大,具体取决于您的用例。为了从pdf和doc / docx中获取文本,你应该考虑使用Tika。

以下是其他SO问题的链接

另外,如果你使用的是SOLR,我认为已经做了一些工作来利用OpenNLP作为标记器......但是从来没有使用它。