我正在探索Stanford Temporal Tagger,因为我的项目是从文本中提取日期实体。来自http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮我理解这个库如何处理大数据。如果您能引导我了解其他基于Java的时间标记库,特别是对于大数据要求,也会有所帮助。是否有任何apache项目进行时间标记?
我发现了一些像
这样的库答案 0 :(得分:3)
是的,SUTime库已经成熟且非常准确,已经运行了数千万字的文本。 (只是确保你没有调用斯坦福CoreNLP中更昂贵和更慢的部分 - 解析和dcoref - 时间标记不需要它。)
Heideltime是另一个非常好的时态标记Java库。它具有支持多种语言的优点,而SUTime目前仅支持英语。它的缺点是配置为使用TreeTagger作为其词性标记器,这意味着您需要处理使用此非开源,非Java组件,或者您需要编写内容以将其配置为使用其他一些POS标签。我不熟悉stemptag;我认为没有任何apache项目。