我想要使用pdf
API来提取一组文档(docx
,txt
,opennlp
)中的关键字/代码,以便进行标记。
有人可以建议我如何使用opennlp
工具进行关键字提取清除?
答案 0 :(得分:1)
欢迎来到SO!如果你想到一个"关键字"作为一个相对术语,OpenNLP可以在很多方面为您提供帮助。例如,您可以使用词性标注器来提取名词,并仅将名词索引为关键词(您可以对动词执行相同操作)。您可以使用SentenceChunker,提取名词短语或动词短语并为短语编制索引。您可以使用Namefinder执行命名实体识别并按类型索引实体(然后您的搜索引擎可以专门搜索人员的名称或组织名称。这可能很强大,具体取决于您的用例。为了从pdf和doc / docx中获取文本,你应该考虑使用Tika。
以下是其他SO问题的链接
另外,如果你使用的是SOLR,我认为已经做了一些工作来利用OpenNLP作为标记器......但是从来没有使用它。