lucene支持常见的NLP任务

时间:2012-12-14 17:22:29

标签: java lucene nlp text-mining opennlp

我正在开展一个文本挖掘项目,该项目计划稍后整合Lucene。我当前的实现使用openNLP来执行常见的NLP任务,例如标记化,构建n-gram特性。我很想知道Lucene能否支持这些功能?与openNLP相比,Lucene能否实现大规模文档集的高效率?

1 个答案:

答案 0 :(得分:1)

  1. Lucene提供标记化和n-gram分析。
  2. 如果您的Lucene文档有一个或多个类别,那么您可以通过计算您的匹配所属的每个类别的数量来实现Hyperpipes分类器,然后将具有最多匹配的类别作为查询的类别。 (我确信你还可以实现其他分类器 - Hyperpipes恰好浮现在脑海中,因为它使用搜索引擎作为后端而无法解决问题。)
  3. 由于Lucene是一个库,您可以从GUI,命令行程序或服务(守护程序)中使用它。