我对NER和提取和编程一般都是新手。我试图找出一种方法,我可以提取到期日和某些文件的开始日期。有没有办法做到这一点?我可以开始的地方?我一直在环顾四周,但遇到的问题是一样的。可以提取日期,但不能提取日期是截止日期还是截止日期。如果它只有1个日期,是发布还是到期。类似的东西。任何帮助将不胜感激。
示例:
“关于中世纪亚洲的论文将于9月3日到期。”
“您在4月6日发出的最后一项任务应该在10天内提交。”
“出价不迟于发布之日起(今天)。”
答案 0 :(得分:2)
在自由文本中表达日期的可能性很大。有几个解决方案:
您可以使用一组正则表达式并尝试自己解析它们。
如果您有一个带注释日期的文档,另一种选择是训练一个受监督的序列分类器,如CRF。
可以快速获得结果的第三个选项是使用来自Facebook研究https://github.com/facebookincubator/duckling的此框架,它将识别日期或时间表达式的表达式,甚至将它们标准化为单个唯一日期。