Lucene librairy用于净化文本(plurial,动词......)

时间:2017-08-06 19:14:51

标签: java lucene purify

我想在我的Java App中使用Lucene来简化文本。

我自己已经做过,但我没有解决动词和多种问题。

我该如何处理?

1 个答案:

答案 0 :(得分:0)

如果我正确理解你的问题,你想从文本中检测名词/动词。 AFAIK Lucene本身无法检测到这一点。您可以改为查看OpenNLP

  

基于机器学习的工具包,用于处理自然语言   文本

因此,它将使用训练模型等概念,然后进行预测。它有一个POSTagger API(词性标注器) - 您可以在文档中查看它的用法here以及一些详细示例hereherehere。< / p>

Java中另一个优秀的框架是Stanford Core NLP您可以查看斯坦福日志 - 线性词性标注器 here