我已成功使用OpenNLP进行文档分类,并且能够从训练样本中提取名称并使用正则表达式。
我想知道是否也可以根据句子中的位置提取姓名(或更一般地说,主题)?
E.g。我宁愿不提供具体的例子,而是让OpenNLP决定出现在指定位置的任何东西都可以是实体,而不是使用先验知道的具体名称进行训练,如Travel to <START:location> New York </START>
。这样,我就不必提供每一个可能的选项(无论如何我都不可能)但只提供一个可能的周围句子。
答案 0 :(得分:1)
这是基于上下文的学习,Opennlp已经做到了。你需要用适当的例子来训练它,以获得好的结果。
例如,当我们的句子中有Professor X
时,Opennlp训练model.bin
会将输出X
作为名称,而当X
出现在没有教授的句子中时在它的前面,它可能不会将输出X
作为名称。
根据其文档,提供15000个训练数据句,您可以期待良好的结果。