我正在尝试使用NLTK命名实体标记器来识别各种命名实体。在使用Python进行自然语言处理一书中,他们提供了常用命名权限列表(表7.4,如果有人好奇的话),其中包括:DATE June,2008-06-29和TIME two five am am ,下午1:30所以我得到的印象是,这可以通过NLTK的命名实体标记来完成。
然而,当我运行标记器时,它似乎根本没有提取日期或时间,因为它是人或组织。 NLTK命名实体标记器是否不处理这些日期/时间情况,还是只选择特定的日期/时间格式?如果它不处理这些情况,有人知道一个系统吗?或者是创建我自己唯一的解决方案?
谢谢!
答案 0 :(得分:10)
您应该查看NLTK的contrib存储库 - 包含一个名为timex.py的模块或在此处下载: https://github.com/nltk/nltk_contrib/blob/master/nltk_contrib/timex.py
从模块的第一行开始:
# Code for tagging temporal expressions in text