NLTK NER:持续学习

时间:2014-06-24 16:55:36

标签: nlp nltk named-entity-recognition reinforcement-learning

我一直在尝试使用NLTK的NER功能。我想从文章中提取这些实体。我知道这样做并不完美,但我想知道手动标记网元之间是否存在人为干预,它会改善吗?

如果是,是否可以使用NLTK中的当前模型来持续训练模型。 (半监督训练)

1 个答案:

答案 0 :(得分:1)

nltk中提供的普通香草NER chunker在内部使用在ACE语料库上训练的最大熵chunker。因此,除非您使用自己的分类器和数据(这是一项非常细致的工作)进行训练,否则无法确定日期或时间。

您可以参考此link来执行同样的操作。

此外,nltk_contrib中有一个名为timex的模块,可以帮助您满足您的需求。

如果您有兴趣在Java中执行相同的操作,请更好地了解Stanford SUTime,它是Stanford CoreNLP的一部分。