NLP任务的ISO Java实现:规范化,IBM Model 1和Okapi BM25

时间:2015-12-22 14:01:57

标签: java nlp nltk stanford-nlp opennlp

我在Python中编写了一个原型,使用NLTK包来执行3个NLP任务:

  1. 文本规范化(将文本拆分为单词,删除标点符号和其他文本,将单词转换为基本表单)
  2. 训练并使用IBM Translation Model 1
  3. 训练并使用Okapi BM25模型评估查询的相关性
  4. 我现在需要将其移植到Java中,并且正在寻找3个任务的现有实现。

    对于#1的基本表单转换子任务,我希望能够提供专门的字典,以帮助更好地处理来自我正在处理的专用域的文本。但如果这不可行,那么使用任何默认值都可以。

    表现很重要。 python版本是原型,但Java端口必须在生产中工作。主要要求是在大量数据的速度方面的可扩展性。 prod机器有很多RAM,因此不太关心。

    有什么建议吗?我可以使用CoreNLPOpenNLP作为#1但是#2和3呢?

0 个答案:

没有答案