非结构化文本的通用日期解析库

时间:2013-02-12 03:12:24

标签: java parsing date text

有人可以在Java中建议任何能够从非结构化数据中解析日期/时间日历事件的库。 示例

  • 今晚10点开始!周日10月10日=> 10 / Feb / 2013 10pm
  • 明天(2月10日)=> 10 /二月/ 2013
  • 2月10日星期日\ r \ n每日放映至2月16日

等等

输入数据来自用户,因此他可以以任何随机格式输入数据。 我开始识别所有可能的令牌并进行正则表达式匹配以对所有令牌进行短语。 我想知道是否有人可以在Java中建议一些库,这可能实际上有助于解析。

我在SO上发布了其他帖子,但他们似乎建议使用技巧,我想知道是否有人有图书馆。

由于

2 个答案:

答案 0 :(得分:0)

您可以在http://opennlp.apache.org/从Apache openLNP(自然语言处理)获取一些主干源,或者通过在服务器上实现openNLP来设置可调用的RESTful Web服务。实现OOB openNLP的好处是,您可以通过nameFinder界面为日期,时间,组织,位置和人员提供实体提取器。您还可以为感兴趣的项目构建更典型上下文的示例文件,以指示其适当的实体类型,并针对它训练NLP模型以获得更好的上下文命中率。我在http://www.augmentedintel.com/apps/csharpnlp/extract-names-from-text.aspx的投资组合的应用部分中有一个C#NLP的工作示例。

答案 1 :(得分:0)

UTAH(https://github.com/sonalake/utah-parser)能够处理非结构化文本到地图的通用解析。一旦你完成了,你应该能够把它扔进格式化程序。