OpenNLP名称时间和日期的实体识别模型

时间:2012-05-02 18:11:12

标签: nlp opennlp

我正在使用OpenNLP模型进行名称实体识别。

我正在传递句子,我想要识别单词。 Open NLP需要一个String []变量,因此我将我的String拆分为由空格分隔的单词。

我正面临着识别日期的问题。例如,如果字符串包含日期:2012年1月7日,我将字符串拆分为单词,“7”,“Jan”和“2012”分隔为3个不同的单词。虽然它们被认为是日期,但是3种不同的标记对我来说没有意义进行进一步处理。 我怎么可能分裂我的字符串,以便“2012年1月2日”可以作为一个字符串...... 2012年1月7日是一种格式...有时它也是2012年1月7日。日期还会识别我输入的时间格式:如下午12:18

NER时间模型无法识别下午12:18或09:52:52的时间。它接受什么样的时间格式?

1 个答案:

答案 0 :(得分:2)

Apache OpenNLP日期和时间模型是统计学的,从语料库中训练。它将从上下文中识别日期和时间,而不仅仅是格式。

如果您有特定需求,可以创建自己的语料库,并train创建自己的OpenNLP名称 Finder模型。

OpenNLP Name Finder还支持在培训时进行一些自定义。也许如果你创建一个语料库,并添加一些regex based features,你可以改善你的结果。