在NLP库中使用Lucene的令牌进行POS标记

时间:2013-11-07 05:52:01

标签: solr lucene nlp opennlp

我正在与索尔和NLP擦肩而过。我在另一个问题中问过如何将所有名词存储在Solr中。但现在,我意识到这将是第二步。首先要解决的问题是,Lucene已经有了tokenizer。在进行POS标记时,我们必须先进行标记化。是否可以在Morph Adorner(或Open NLP)中使用Lucene的令牌来生成POS标签?如果是这样,问题来了,如何将这些POS标签存储在solr索引中?

1 个答案:

答案 0 :(得分:0)

您肯定可以在OpenNLP中使用不同的标记化程序 - OpenNLP的API文档显示了如何非常直接地执行此操作。但是,更大的问题是,用于标记POS的标记化需要与用于训练POS标记的标记化相同,这意味着您无法使用预构建的OpenNLP POS模型。最后,Lucene的tokenizer可能是一种不同类型的tokenizer - 它可能会做出不同的假设(因为它的目标是信息重新检索),而不是你想要的语言理解。