我正在使用CoreNLP的命名实体识别注释器。
我的问题是我不想承认实体的相对日期。 我的目标是将日期与事件联系起来
一些有趣的日期是1997年2月18日,7月20日,1992年,今天4天和13日星期一。
在这个例子中,我想突出显示" 1997年2月18日"," 7月20日"和" 1992"。 即使其中某些日期尚未完成,它们仍可用于搜索事件。
另一方面"从今天开始的4天"和"星期一,13日"对我来说并不感兴趣:原因是第一个是相对于当前日期(或文本的编写日期),而第二个是太通用了。
有没有一种简单的方法可以告诉NER注释者丢弃相对日期?
谢谢
答案 0 :(得分:1)
我找到了以下解决方案,在我的案例中效果非常好。
表示时间/日期命名实体的每个标记都有一个包含其标准化形式的注释字段。
我想识别的绝对日期将具有遵循以下模式的标准化形式:
使用REGEX可以丢弃没有像这样的规范化形式的注释。
(\d{4}|X{4})((\/\d{2}(\/\d{2})?)?)